🚀 SEA-LION-v1-3B
SEA-LIONは、東南アジア(SEA)地域向けに事前学習と命令微調整が行われた大規模言語モデル(LLM)のコレクションです。
モデルのサイズは30億から70億のパラメータで構成されています。
これはSEA-LION-v1-3Bの紹介ページです。
SEA-LIONは Southeast Asian Languages In One Network の略称です。
📚 詳細ドキュメント
モデルの説明
SEA-LIONモデルは、自然言語処理の分野における大きな進歩であり、東南アジア地域のコンテキストを理解するために特別に学習されています。
SEA-LION-v1-3Bは、堅牢なMPTアーキテクチャをベースに構築され、語彙サイズは256Kです。
トークン化には、東南アジア言語に特化した独自のSEABPETokenizerを使用しており、モデルの最適なパフォーマンスを保証します。
SEA-LION-v1-3Bの学習データは、9800億トークンを含んでいます。
- 開発者: Products Pillar, AI Singapore
- 資金提供: Singapore NRF
- モデルタイプ: デコーダ
- 言語: 英語、中国語、インドネシア語、マレー語、タイ語、ベトナム語、フィリピン語、タミル語、ビルマ語、クメール語、ラオス語
- ライセンス: MITライセンス
パフォーマンスベンチマーク
SEA-LION-v1-3Bは、英語の一般的なタスクで平均的なパフォーマンスを示しています(Hugging FaceのLLMリーダーボードで測定):
モデル |
ARC |
HellaSwag |
MMLU |
TruthfulQA |
平均 |
SEA-LION 3B |
36.26 |
64.59 |
24.07 |
36.46 |
40.35 |
学習の詳細
データ
SEA-LION-v1-3Bは、以下のデータの9800億トークンで学習されました:
データソース |
ユニークトークン |
乗数 |
総トークン |
割合 |
RefinedWeb - 英語 |
5713億 |
1 |
5713億 |
58.20% |
mC4 - 中国語 |
912億 |
1 |
912億 |
9.29% |
mC4 - インドネシア語 |
36.8億 |
4 |
147億 |
1.50% |
mC4 - マレー語 |
7.2億 |
4 |
29億 |
0.29% |
mC4 - フィリピン語 |
13.2億 |
4 |
53億 |
0.54% |
mC4 - ビルマ語 |
12億 |
4 |
49億 |
0.49% |
mC4 - ベトナム語 |
634億 |
1 |
634億 |
6.46% |
mC4 - タイ語 |
58億 |
2 |
116億 |
1.18% |
WangChanBERTa - タイ語 |
50億 |
2 |
100億 |
1.02% |
mC4 - ラオス語 |
2.7億 |
4 |
11億 |
0.12% |
mC4 - クメール語 |
9.7億 |
4 |
39億 |
0.40% |
mC4 - タミル語 |
25.5億 |
4 |
102億 |
1.04% |
the Stack - Python |
209億 |
2 |
418億 |
4.26% |
the Stack - Javascript |
556億 |
1 |
556億 |
5.66% |
the Stack - Shell |
12.5億 |
2 |
25億 |
0.26% |
the Stack - SQL |
64億 |
2 |
128億 |
1.31% |
the Stack - Markdown |
266億 |
1 |
266億 |
2.71% |
RedPajama - StackExchange |
212億 |
1 |
212億 |
2.16% |
RedPajama - ArXiv |
306億 |
1 |
306億 |
3.12% |
インフラストラクチャ
SEA-LION-v1-3Bは、MosaicML Composerを使用して、以下のハードウェアで学習されました:
学習詳細 |
SEA-LION-v1-3B |
AWS EC2 p4d.24xlarge |
30インスタンス |
Nvidia A100 40GB GPU |
240 |
学習期間 |
14日 |
設定
ハイパーパラメータ |
SEA-LION-v1-3B |
精度 |
bfloat16 |
オプティマイザ |
decoupled_adamw |
スケジューラ |
cosine_with_warmup |
学習率 |
1.6e-4 |
グローバルバッチサイズ |
1200 |
マイクロバッチサイズ |
5 |
🔧 技術詳細
モデルアーキテクチャと目的
SEA-LION-v1-3Bは、MPTアーキテクチャを使用したデコーダモデルです。
パラメータ |
SEA-LION-v1-3B |
レイヤー |
32 |
d_model |
2560 |
ヘッド次元 |
20 |
語彙 |
256000 |
シーケンス長 |
2048 |
トークナイザの詳細
トークナイザの学習には、学習データから2000万行をサンプリングしました。
学習フレームワークはSentencePieceです。
トークナイザのタイプはByte-Pair Encoding (BPE)です。
チーム
Lam Wen Zhi Clarence
Leong Wei Qi
Li Yier
Liu Bing Jie Darius
Lovenia Holy
Montalan Jann Railey
Ng Boon Cheong Raymond
Ngui Jian Gang
Nguyen Thanh Ngan
Ong Tat-Wee David
Rengarajan Hamsawardhini
Susanto Yosephine
Tai Ngee Chia
Tan Choon Meng
Teo Jin Howe
Teo Eng Sipp Leslie
Teo Wei Yi
Tjhi William
Yeo Yeow Tong
Yong Xianbin
謝辞
AI Singaporeは、シンガポール国立研究財団によって支援され、シンガポール国立大学によって主催される国家プログラムです。
この資料に表されている意見、調査結果、結論または推奨事項は、著者のものであり、シンガポール国立研究財団の見解を反映するものではありません。
お問い合わせ
詳細については、SEA-LION問い合わせフォームを使用してお問い合わせください。
SEA-LIONのGitHubリポジトリへのリンク
免責事項
これはベースモデルのリポジトリです。
このモデルは安全性に関して調整されていません。
開発者とユーザーは、独自の安全性の微調整と関連するセキュリティ対策を実施する必要があります。
公開された重みとコードの使用に起因するいかなる請求、損害、またはその他の責任についても、著者は一切の責任を負いません。
参考文献
タイ語事前学習データ参考文献
@misc{lowphansirikul2021wangchanberta,
title={WangchanBERTa: Pretraining transformer-based Thai Language Models},
author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
year={2021},
eprint={2101.09635},
archivePrefix={arXiv},
primaryClass={cs.CL}
}