🚀 GEITje-7B-chat
GEITjeは、Mistral 7Bをベースにした、70億のパラメータを持つ大規模なオープンなオランダ語モデルです。オランダ語のテキスト100億トークンでさらに学習されており、オランダ語のスキルが向上し、オランダ語のトピックに関する知識が増えています。
⚠️ 重要提示
財団BREINの強い要請により、GEITjeは直ちに利用できなくなりました。
すべてのモデルファイル(重み)とチェックポイントは、このリポジトリから削除されました。
詳細については、私のブログ記事(オランダ語、英語)を参照してください。
🐐 GEITje-7b-chat-v2 をチェックしてみてください 🐐
🚀 クイックスタート
このモデルに関する詳細な情報は、以下のセクションで説明します。
✨ 主な機能
- オランダ語の大規模言語モデルで、オランダ語のテキスト生成に特化しています。
- Mistral 7Bをベースに、オランダ語のテキストでさらに学習されているため、オランダ語のスキルが向上しています。
- チャットアプリケーションに適したバージョン(GEITje-chatとGEITje-chat-v2)もあり、指示に従い、質問に答え、様々なトピックで対話ができます。
📚 ドキュメント
モデルの説明
Mistral – ベースモデル
GEITjeは、Mistral 7Bをベースにしています。これは、Mistral AIによって学習された、70億のパラメータを持つ大規模なオープンな言語モデルです。Mistral AIによると、7Bモデルは、テストしたすべての(英語の)ベンチマークでLlama 2 13Bよりも優れた性能を発揮します。Mistral 7Bは、Apache 2.0オープンソースライセンスの下でリリースされています。
GEITje – オランダ語テキストでの追加学習
GEITjeは、Dutch GigacorpusとMADLAD-400のウェブクローリングコーパスからのオランダ語のテキスト100億トークンでMistral 7Bをさらに学習させることで作成されました。これは、いわゆる_全パラメータ微調整_であり、すべてのパラメータに対して行われます。PEFTやLoRAの微調整ではありません。Mistralと同様に、GEITjeの_コンテキスト長_は8,192トークンです。
GEITje-chat – 対話用に微調整
GEITjeのチャットアプリケーションにおける能力を示すために、GEITjeの2つの初期チャットバージョン(GEITje-chatとGEITje-chat-v2)も微調整されています。これらは、指示に従い、質問に答え、様々なトピックで対話ができます。
その他の情報
GEITje-chatについての詳細は、GitHubの📄 READMEを参照してください。
チェックポイント
中間チェックポイントは、checkpoints
ブランチで利用できます。
学習手順
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- learning_rate: 1e-05
- train_batch_size: 2
- eval_batch_size: 8
- seed: 42
- gradient_accumulation_steps: 8
- total_train_batch_size: 16
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: cosine
- lr_scheduler_warmup_ratio: 0.1
- num_epochs: 3
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
1.0263 |
0.2 |
236 |
0.9482 |
1.0368 |
0.4 |
472 |
0.9574 |
0.9503 |
0.6 |
708 |
0.9492 |
1.1419 |
0.8 |
944 |
0.9406 |
1.2161 |
1.0 |
1180 |
0.9317 |
0.6695 |
1.2 |
1416 |
0.9407 |
0.7379 |
1.4 |
1652 |
0.9350 |
0.7695 |
1.6 |
1888 |
0.9282 |
0.6795 |
1.8 |
2124 |
0.9218 |
0.6217 |
2.0 |
2360 |
0.9174 |
0.438 |
2.2 |
2596 |
0.9546 |
0.3719 |
2.39 |
2832 |
0.9546 |
0.4853 |
2.59 |
3068 |
0.9548 |
0.3852 |
2.79 |
3304 |
0.9548 |
0.48 |
2.99 |
3540 |
0.9548 |
フレームワークのバージョン
- Transformers 4.36.0.dev0
- Pytorch 2.1.1+cu121
- Datasets 2.15.0
- Tokenizers 0.15.0
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。