Roberta Base 100M 3
模型概述
基於不同規模數據集(1M/10M/100M/1B詞元)預訓練的RoBERTa模型,通過調整模型規格和訓練參數優化小數據場景表現
模型特點
小數據優化
專門針對1M-1B詞元的小規模數據優化,相比原始RoBERTa更適合數據受限場景
規格可選
提供BASE(125M)和MED-SMALL(45M)兩種參數規模,平衡性能與效率
嚴格驗證
每個數據規模選取驗證困惑度最低的3個模型發佈,確保質量
模型能力
文本表徵學習
下游任務微調
掩碼詞預測
使用案例
教育領域
小規模數據微調
在有限標註數據的教育文本分類任務中作為預訓練基座
研究領域
預訓練策略研究
研究不同數據規模對預訓練模型性能的影響
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98