🚀 Fietje 2
Fietje 2は、オランダ語向けのオープンで効率的な大規模言語モデル(LLM)です。microsoft/phi - 2をベースに、280億トークンのオランダ語データで学習させることで、オランダ語のテキスト生成に特化したモデルとなっています。
Fietje 2
An open and efficient LLM for Dutch
👱♀️ Base version (this one) -
🤖 Instruct version -
💬 Chat version -
🚀 GGUF of base
Chat with Fietje here!
🚀 クイックスタート
Fietjeは、microsoft/phi - 2を適応させたバージョンで、280億のオランダ語トークンで学習することで、オランダ語のテキスト生成に最適化されています。モデルサイズは27億パラメータと小さく効率的で、GEITje 7B Ultraのような2倍のサイズの強力なオランダ語LLMとほぼ同等の性能を発揮します。
Fietjeの作成と評価の詳細な説明や使用例は、このGithubリポジトリにあります。
📄 ライセンス
このモデルはMITライセンスの下で公開されています。
📚 ドキュメント
引用
もしあなたの研究や作品でFietjeまたはCulturaX + Wikipedia filtered subsetを使用する場合は、以下の論文を引用してください。
@misc{vanroy2024fietjeopenefficientllm,
title={Fietje: An open, efficient LLM for Dutch},
author={Bram Vanroy},
year={2024},
eprint={2412.15450},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.15450},
}
想定される使用法と制限
このモデルには、phi - 2と同様の制限や、一般的なLLMの制限が適用されます。LLMは幻覚を起こしたり、誤りを犯すことがあり、信頼できるものではありません。自己責任で使用してください!
学習データ
Fietjeは、280億のオランダ語トークンで継続事前学習されました。これには、ウィキペディアの全オランダ語部分(約15%を占める)と、CulturaXからのオランダ語トークンが含まれています。このデータセットの新しいバージョンはここにあり、高いデータ品質を保証するために行われたフィルタリングについても記載されています。
学習手順
このプロジェクトを達成するための計算資源を提供してくれたFlemish Supercomputer Center (VSC)に感謝します。ジョブの待機時間を含め、学習は4つのノード(各ノードに4台のA100 80GB GPU、合計16台)で約2週間かかりました。
学習は、素晴らしいalignment - handbookを使用し、DeepSpeedをバックエンドとして行われました。正確な学習レシピとSLURMスクリプトは、Githubリポジトリに記載されています。
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- learning_rate: 9e - 05
- train_batch_size: 40
- eval_batch_size: 40
- seed: 42
- distributed_type: multi - GPU
- num_devices: 16
- gradient_accumulation_steps: 3
- total_train_batch_size: 1920
- total_eval_batch_size: 640
- optimizer: Adam with betas=(0.9,0.98) and epsilon=1e - 07
- lr_scheduler_type: linear
- num_epochs: 1.0
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
1.6334 |
0.13 |
900 |
1.5937 |
1.5469 |
0.26 |
1800 |
1.5051 |
1.4937 |
0.4 |
2700 |
1.4628 |
1.4633 |
0.53 |
3600 |
1.4375 |
1.4485 |
0.66 |
4500 |
1.4203 |
1.4374 |
0.79 |
5400 |
1.4085 |
1.4278 |
0.92 |
6300 |
1.4013 |
フレームワークバージョン
- Transformers 4.39.1
- Pytorch 2.1.2+cu121
- Datasets 2.18.0
- Tokenizers 0.15.2