🚀 SEA-LION-v1-7B
SEA-LION是一系列大語言模型(LLMs),針對東南亞(SEA)地區進行了預訓練和指令調優。這些模型的參數規模從30億到70億不等。本文檔是SEA-LION 7B基礎模型的介紹。
SEA-LION代表“東南亞語言一網打盡”(Southeast Asian Languages In One Network)。
✨ 主要特性
- 區域針對性:專門為理解東南亞地區的語境而訓練,支持多種東南亞語言,包括英語、中文、印尼語、馬來語、泰語、越南語、菲律賓語、泰米爾語、緬甸語、高棉語和老撾語。
- 強大架構:基於穩健的MPT架構構建,詞彙量達256K。
- 定製分詞器:採用自定義的SEABPETokenizer,專門為東南亞語言量身定製,確保模型性能最優。
📦 安裝指南
文檔未提供安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
模型詳情
模型描述
SEA-LION模型是自然語言處理領域的重大突破,專門針對理解東南亞地區的語境進行訓練。
SEA-LION-v1-7B基於強大的MPT架構構建,詞彙量為256K。
在分詞方面,該模型採用了我們自定義的SEABPETokenizer,它是專門為東南亞語言定製的,能夠確保模型達到最佳性能。
SEA-LION-v1-7B的訓練數據包含9800億個標記。
屬性 |
詳情 |
開發者 |
新加坡人工智能公司產品支柱團隊 |
資助方 |
新加坡國家研究基金會 |
模型類型 |
解碼器 |
支持語言 |
英語、中文、印尼語、馬來語、泰語、越南語、菲律賓語、泰米爾語、緬甸語、高棉語、老撾語 |
許可證 |
MIT許可證 |
性能基準
SEA-LION-v1-7B在英語通用任務上的平均表現(根據Hugging Face的大語言模型排行榜衡量)如下:
模型 |
ARC |
HellaSwag |
MMLU |
TruthfulQA |
平均 |
SEA-LION 7B |
39.93 |
68.51 |
26.87 |
35.09 |
42.60 |
訓練詳情
數據
SEA-LION-v1-7B在以下9800億個標記的數據上進行訓練:
數據源 |
唯一標記數 |
乘數 |
總標記數 |
百分比 |
RefinedWeb - 英語 |
5713億 |
1 |
5713億 |
58.20% |
mC4 - 中文 |
912億 |
1 |
912億 |
9.29% |
mC4 - 印尼語 |
36.8億 |
4 |
147億 |
1.50% |
mC4 - 馬來語 |
7.2億 |
4 |
29億 |
0.29% |
mC4 - 菲律賓語 |
13.2億 |
4 |
53億 |
0.54% |
mC4 - 緬甸語 |
12億 |
4 |
49億 |
0.49% |
mC4 - 越南語 |
634億 |
1 |
634億 |
6.46% |
mC4 - 泰語 |
58億 |
2 |
116億 |
1.18% |
WangChanBERTa - 泰語 |
50億 |
2 |
100億 |
1.02% |
mC4 - 老撾語 |
2.7億 |
4 |
11億 |
0.12% |
mC4 - 高棉語 |
9.7億 |
4 |
39億 |
0.40% |
mC4 - 泰米爾語 |
25.5億 |
4 |
102億 |
1.04% |
the Stack - Python |
209億 |
2 |
418億 |
4.26% |
the Stack - Javascript |
556億 |
1 |
556億 |
5.66% |
the Stack - Shell |
12.5億 |
2 |
25億 |
0.26% |
the Stack - SQL |
64億 |
2 |
128億 |
1.31% |
the Stack - Markdown |
266億 |
1 |
266億 |
2.71% |
RedPajama - StackExchange |
212億 |
1 |
212億 |
2.16% |
RedPajama - ArXiv |
306億 |
1 |
306億 |
3.12% |
基礎設施
SEA-LION-v1-7B使用MosaicML Composer在以下硬件上進行訓練:
訓練詳情 |
SEA-LION-v1-7B |
AWS EC2 p4d.24xlarge |
32個實例 |
Nvidia A100 40GB GPU |
256個 |
訓練時長 |
22天 |
配置
超參數 |
SEA-LION-v1-7B |
精度 |
bfloat16 |
優化器 |
decoupled_adamw |
調度器 |
cosine_with_warmup |
學習率 |
6.0e-5 |
全局批次大小 |
2048 |
微批次大小 |
4 |
技術規格
模型架構與目標
SEA-LION-v1-7B是一個基於MPT架構的解碼器模型。
參數 |
SEA-LION-v1-7B |
層數 |
32 |
d_model |
4096 |
頭維度 |
32 |
詞彙量 |
256000 |
序列長度 |
2048 |
分詞器詳情
我們從訓練數據中抽取了2000萬行來訓練分詞器。訓練框架使用的是SentencePiece,分詞器類型為字節對編碼(BPE)。
🔧 技術細節
團隊成員
- Lam Wen Zhi Clarence
- Leong Wei Qi
- Li Yier
- Liu Bing Jie Darius
- Lovenia Holy
- Montalan Jann Railey
- Ng Boon Cheong Raymond
- Ngui Jian Gang
- Nguyen Thanh Ngan
- Ong Tat-Wee David
- Rengarajan Hamsawardhini
- Susanto Yosephine
- Tai Ngee Chia
- Tan Choon Meng
- Teo Jin Howe
- Teo Eng Sipp Leslie
- Teo Wei Yi
- Tjhi William
- Yeo Yeow Tong
- Yong Xianbin
致謝
新加坡人工智能公司是一個由新加坡國家研究基金會支持的國家項目,由新加坡國立大學主辦。本材料中表達的任何觀點、研究結果、結論或建議均為作者個人觀點,不反映新加坡國家研究基金會的意見。
聯繫方式
如需更多信息,請通過SEA-LION諮詢表單與我們聯繫。
SEA-LION的GitHub倉庫鏈接
免責聲明
本倉庫為基礎模型倉庫。該模型尚未進行安全對齊。開發者和用戶應自行進行安全微調及相關安全措施。在任何情況下,作者均不對因使用發佈的權重和代碼而產生的任何索賠、損害或其他責任負責。
參考文獻
泰語預訓練數據參考
@misc{lowphansirikul2021wangchanberta,
title={WangchanBERTa: Pretraining transformer-based Thai Language Models},
author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
year={2021},
eprint={2101.09635},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
本模型採用MIT許可證。