🚀 Llama-SEA-LION-v3-8B
SEA-LIONは、東南アジア(SEA)地域向けに事前学習と命令微調整が行われた大規模言語モデル(LLM)のコレクションです。Llama-SEA-LION-v3-8Bは、ミャンマー語、中国語、英語、フィリピン語、インドネシア語、クメール語、ラオス語、マレー語、タミル語、タイ語、ベトナム語という11の東南アジア言語にわたる約200Bトークンで継続的な事前学習が行われた多言語モデルです。SEA-LIONは、Southeast Asian Languages In One Networkの略称です。
- 開発元: Products Pillar, AI Singapore
- 資金提供元: シンガポール国立研究財団(NRF)
- モデルタイプ: デコーダー
- サポート言語: ミャンマー語、中国語、英語、フィリピン語、インドネシア語、クメール語、ラオス語、マレー語、タミル語、タイ語、ベトナム語
- ライセンス: Llama 3.1 Community License
✨ 主な機能
Llama-SEA-LION-v3-8Bは、東南アジア地域の多様な言語に対応した多言語モデルです。このモデルは、一般的な言語能力と制約遵守行動に関して評価されており、様々なタスクでの性能を有しています。
📚 ドキュメント
モデルの詳細
モデルの説明
Llama-3.1アーキテクチャを使用したデコーダーモデルであるLlama-3.1-8B-Instructに対して、英語と東南アジア言語で継続的な事前学習を行い、Llama-SEA-LION-v3-8Bを作成しました。トークン化には、Llama 3.1 8B Instructで使用されるデフォルトのトークナイザーを採用しています。
ベンチマーク性能
Llama-SEA-LION-v3-8Bは、一般的な言語能力と制約遵守行動に関して評価されました。
一般的な言語能力と制約遵守行動
一般的な言語能力の評価には、様々なタスクにわたるSEA-HELM評価ベンチマークを使用しました。これらのタスクには、質問応答(QA)、感情分析(Sentiment)、毒性検出(Toxicity)、双方向の翻訳(Eng>Lang & Lang>Eng)、抽象的要約(Abssum)、因果関係推論(Causal)、自然言語推論(NLI)が含まれます。
注意: SEA-HELMは、厳格な形式で回答を引出すためのプロンプトを使用して実装されています。すべてのタスクで、モデルは回答タグを提供することが期待されており、そこから回答が自動的に抽出されます。選択肢が提供されるタスクでは、回答は事前定義された選択肢の1つで構成される必要があります。各タスクのスコアは、ランダムな確率によるベースライン性能を考慮して正規化されています。
評価は、各データセットの100 - 1000インスタンスのサンプルに対して、ネイティブなプロンプトを使用して5ショットで行われました。
OpenLLMリーダーボードでのIFEvalの実装に倣い、英語と東南アジア言語での特定の制約を遵守するモデルの能力を比較するために、SEA-IFEvalも実装しました。
SEA-IFEval
IFEvalに基づいて、チーム内の言語学者とネイティブスピーカーが協力して、データセットをフィルタリング、ローカライズ、翻訳し、例が合理的、意味があり、自然なままであることを確認しました。
SEA-IFEvalは、プロンプトで提供される制約に従うモデルの能力を評価します。たとえば、特定の単語/フレーズで応答を始める、または特定のセクション数で回答するなどです。さらに、正解率は、正しい言語での応答の割合によって正規化されます(モデルがタスクを正しく実行しているが、誤った言語で応答した場合、タスクに失敗したと判断されます)。
Llama-SEA-LION-v3-8Bのベンチマーク性能の詳細については、SEA-HELMリーダーボード(https://leaderboard.sea-lion.ai/)を参照してください。
🔧 技術詳細
インフラストラクチャ
Llama-SEA-LION-v3-8Bは、以下のハードウェアでMosaicML Composerを使用して学習されました。
学習詳細 |
Llama-SEA-LION-v3-8B |
AWS p5e.48xlarge |
8インスタンス |
Nvidia H200 140GB GPU |
64 |
学習期間 |
136時間 |
設定
ハイパーパラメータ |
Llama-SEA-LION-v3-8B |
精度 |
bfloat16 |
オプティマイザー |
decoupled_adamw |
スケジューラー |
weight_stable_decay |
学習率 |
1.0e-5 |
グローバルバッチサイズ |
512 |
📦 データ
Llama-SEA-LION-v3-8Bは、以下のデータの200Bトークンで継続的な事前学習が行われました。
言語 |
ソース |
総トークン数 (B) |
割合 (%) |
総割合 (%) |
コード |
StackV2 |
40 |
20 |
20 |
英語 |
Dolma |
37.5 |
18.75 |
25 |
|
Fineweb-Edu |
7.5 |
3.75 |
|
|
その他 |
5 |
2.5 |
|
中国語 |
SEA-LION Pile v1 |
12 |
6 |
13 |
|
その他 |
14 |
7 |
|
ベトナム語 |
SEA-LION Pile v1 |
8.4 |
4.2 |
13 |
|
VinBigData |
16 |
8 |
|
|
その他 |
1.6 |
0.8 |
|
インドネシア語 |
SEA-LION Pile v1 |
7 |
3.5 |
13 |
|
SEA-LION Pile v2 |
7 |
3.5 |
|
|
その他 |
12 |
6 |
|
タイ語 |
SEA-LION Pile v1 |
10.7 |
5.35 |
10 |
|
WangChanBERTa |
8.5 |
4.25 |
|
|
その他 |
0.8 |
0.4 |
|
フィリピン語 - マレー語 - タミル語 |
SEA-LION Pile v1, AI4Bharat Sangraha |
4.28 |
2.14 |
3 |
|
その他 |
1.72 |
0.86 |
|
クメール語 - ラオス語 - ミャンマー語 |
SEA-LION Pile v1 |
5.2 |
2.6 |
3 |
|
その他 |
0.8 |
0.4 |
|
注意:
- すべてのトークン数は、Llama 3.1 8B Instructトークナイザーを使用してカウントされています。
- SEA-LION Pile v1は、Common Crawl WETから処理されており、ここで公開されています。このバージョンの締め切り日は2020年9月です。
- SEA-LION Pile v2は、2020年10月から2024年4月までのCommon Crawl WARCから処理されています。
- Sangrahaからのタミル語データは、ここで公開されています。論文はここで見ることができます。
- タミル語ニュースは、Seithiから許可を得て収集されています。
🤝 コントリビューション募集
研究者、開発者、言語愛好家の皆様に、SEA-LIONの改善と拡張に積極的に貢献することを奨励します。コントリビューションには、バグの特定と報告、事前学習、命令、および好みのデータの共有、ドキュメントの使いやすさの改善、新しいモデル評価タスクとメトリクスの提案と実装、または追加の東南アジア言語でのモデルのバージョンの学習などが含まれます。あなたの専門知識と洞察を共有することで、これらのモデルをよりアクセスしやすく、正確で、多様なものにするために、SEA-LIONの未来を形作るために私たちと一緒になってください。コントリビューション募集の詳細については、GitHubをご確認ください。
👥 チーム
Chan Adwin、Cheng Nicholas、Choa Esther、Huang Yuli、Hulagadri Adithya Venkatadri、Lau Wayne、Lee Chwan Ren、Leong Wai Yi、Leong Wei Qi、Limkonchotiwat Peerat、Liu Bing Jie Darius、Montalan Jann Railey、Ng Boon Cheong Raymond、Ngui Jian Gang、Nguyen Thanh Ngan、Ong Brandon、Ong Tat-Wee David、Ong Zhi Hao、Rengarajan Hamsawardhini、Siow Bryan、Susanto Yosephine、Tai Ngee Chia、Tan Choon Meng、Teng Walter、Teo Eng Sipp Leslie、Teo Wei Yi、Tjhi William、Yeo Yeow Tong、Yong Xianbin
🙏 謝辞
AI Singaporeは、シンガポール国立研究財団(NRF)によって支援され、シンガポール国立大学によって主催される国家プログラムです。この資料に表されている意見、調査結果、結論、または推奨事項は、著者のものであり、国立研究財団またはシンガポール国立大学の見解を反映するものではありません。
📞 お問い合わせ
詳細については、このSEA-LION問い合わせフォームを使用してお問い合わせください。
SEA-LIONのGitHubリポジトリへのリンク
⚠️ 免責事項
これは、商用命令微調整モデルのリポジトリです。このモデルは安全性に関して調整されていません。開発者とユーザーは、独自の安全性の微調整と関連するセキュリティ対策を実行する必要があります。いかなる場合も、著者は、公開された重みとコードの使用に起因するいかなる請求、損害、またはその他の責任について責任を負わないものとします。
📚 参考文献
タイ語事前学習データの参考文献
@misc{lowphansirikul2021wangchanberta,
title={WangchanBERTa: Pretraining transformer-based Thai Language Models},
author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
year={2021},
eprint={2101.09635},
archivePrefix={arXiv},
primaryClass={cs.CL}
}