🚀 SEA-LION-v1-3B
SEA-LION是一系列大語言模型(LLMs),針對東南亞(SEA)地區進行了預訓練和指令微調。模型的參數規模從30億到70億不等。此為SEA-LION-v1-3B的介紹頁。
SEA-LION代表東南亞語言一網打盡(Southeast Asian Languages In One Network)。
📚 詳細文檔
模型描述
SEA-LION模型是自然語言處理領域的重大突破,專門針對東南亞地區的語境進行訓練。
SEA-LION-v1-3B基於強大的MPT架構構建,詞彙量達256K。
在分詞方面,該模型採用了我們定製的SEABPETokenizer,它是專門為東南亞語言量身定製的,可確保模型達到最佳性能。
SEA-LION-v1-3B的訓練數據包含9800億個詞元。
- 開發者:新加坡人工智能公司產品支柱團隊
- 資助方:新加坡國家研究基金會
- 模型類型:解碼器
- 支持語言:英語、中文、印尼語、馬來語、泰語、越南語、菲律賓語、泰米爾語、緬甸語、高棉語、老撾語
- 許可證:MIT許可證
性能基準
SEA-LION-v1-3B在英語通用任務上表現出一定的平均性能(根據Hugging Face的大語言模型排行榜衡量):
模型 |
ARC |
HellaSwag |
MMLU |
TruthfulQA |
平均 |
SEA-LION 3B |
36.26 |
64.59 |
24.07 |
36.46 |
40.35 |
🔧 技術細節
數據
SEA-LION-v1-3B在以下9800億個詞元的數據上進行訓練:
數據源 |
唯一詞元 |
乘數 |
總詞元 |
百分比 |
RefinedWeb - 英語 |
5713億 |
1 |
5713億 |
58.20% |
mC4 - 中文 |
912億 |
1 |
912億 |
9.29% |
mC4 - 印尼語 |
36.8億 |
4 |
147億 |
1.50% |
mC4 - 馬來語 |
7.2億 |
4 |
29億 |
0.29% |
mC4 - 菲律賓語 |
13.2億 |
4 |
53億 |
0.54% |
mC4 - 緬甸語 |
12億 |
4 |
49億 |
0.49% |
mC4 - 越南語 |
634億 |
1 |
634億 |
6.46% |
WangChanBERTa - 泰語 |
50億 |
2 |
100億 |
1.02% |
mC4 - 泰語 |
58億 |
2 |
116億 |
1.18% |
mC4 - 老撾語 |
2.7億 |
4 |
11億 |
0.12% |
mC4 - 高棉語 |
9.7億 |
4 |
39億 |
0.40% |
mC4 - 泰米爾語 |
25.5億 |
4 |
102億 |
1.04% |
the Stack - Python |
209億 |
2 |
418億 |
4.26% |
the Stack - Javascript |
556億 |
1 |
556億 |
5.66% |
the Stack - Shell |
12.5億 |
2 |
25億 |
0.26% |
the Stack - SQL |
64億 |
2 |
128億 |
1.31% |
the Stack - Markdown |
266億 |
1 |
266億 |
2.71% |
RedPajama - StackExchange |
212億 |
1 |
212億 |
2.16% |
RedPajama - ArXiv |
306億 |
1 |
306億 |
3.12% |
基礎設施
SEA-LION-v1-3B使用MosaicML Composer在以下硬件上進行訓練:
訓練詳情 |
SEA-LION-v1-3B |
AWS EC2 p4d.24xlarge |
30 個實例 |
Nvidia A100 40GB GPU |
240 個 |
訓練時長 |
14 天 |
配置
超參數 |
SEA-LION-v1-3B |
精度 |
bfloat16 |
優化器 |
decoupled_adamw |
調度器 |
cosine_with_warmup |
學習率 |
1.6e-4 |
全局批次大小 |
1200 |
微批次大小 |
5 |
模型架構和目標
SEA-LION-v1-3B是一個使用MPT架構的解碼器模型。
參數 |
SEA-LION-v1-3B |
層數 |
32 |
d_model |
2560 |
頭維度 |
20 |
詞彙量 |
256000 |
序列長度 |
2048 |
分詞器詳情
我們從訓練數據中抽取了2000萬行來訓練分詞器。訓練框架為SentencePiece,分詞器類型為字節對編碼(BPE)。
👥 團隊成員
- Lam Wen Zhi Clarence
- Leong Wei Qi
- Li Yier
- Liu Bing Jie Darius
- Lovenia Holy
- Montalan Jann Railey
- Ng Boon Cheong Raymond
- Ngui Jian Gang
- Nguyen Thanh Ngan
- Ong Tat-Wee David
- Rengarajan Hamsawardhini
- Susanto Yosephine
- Tai Ngee Chia
- Tan Choon Meng
- Teo Jin Howe
- Teo Eng Sipp Leslie
- Teo Wei Yi
- Tjhi William
- Yeo Yeow Tong
- Yong Xianbin
🙏 致謝
新加坡人工智能是由新加坡國家研究基金會支持的國家項目,由新加坡國立大學主辦。本材料中表達的任何觀點、研究結果、結論或建議均為作者個人觀點,不反映新加坡國家研究基金會的意見。
📞 聯繫我們
如需更多信息,請通過此SEA-LION諮詢表單與我們聯繫。
SEA-LION的GitHub倉庫鏈接
⚠️ 免責聲明
此為基礎模型的倉庫。該模型尚未進行安全對齊。開發者和用戶應自行進行安全微調及相關安全措施。在任何情況下,作者均不對因使用發佈的權重和代碼而產生的任何索賠、損害或其他責任負責。
📚 參考文獻
泰語預訓練數據參考
@misc{lowphansirikul2021wangchanberta,
title={WangchanBERTa: Pretraining transformer-based Thai Language Models},
author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
year={2021},
eprint={2101.09635},
archivePrefix={arXiv},
primaryClass={cs.CL}
}