🚀 GEITje-7B-chat-v2
GEITje-7B-chat-v2は、Mistral 7Bをベースにした、70億のパラメータを持つ大規模なオープンなオランダ語モデルです。オランダ語のテキストでさらに学習され、オランダ語の能力とオランダ語のトピックに関する知識が向上しています。
🚀 クイックスタート
⚠️ 重要提示
公益財団法人BREINの強い要請により、GEITjeは直ちに利用できなくなりました。 ⚠️
すべてのモデルファイル(重み)とチェックポイントは、このリポジトリから削除されました。
詳細については、私のブログ記事(オランダ語、英語)を参照してください。
🤖️ 🤗 Hugging Face Spaces でチャットモデルを試してみましょう!
✨ 主な機能
GEITjeは、Mistral 7Bをベースにした、70億のパラメータを持つ大規模なオープンなオランダ語モデルです。オランダ語のテキストでさらに学習され、オランダ語の能力とオランダ語のトピックに関する知識が向上しています。また、GEITje-chatとGEITje-chat-v2は、チャットアプリケーション向けに微調整されており、指示に従い、質問に答え、様々なトピックについて対話を行うことができます。
📚 ドキュメント
Mistral – ベースモデル
GEITjeは、Mistral 7Bをベースにしています。これは、Mistral AIによって学習された、70億のパラメータを持つ大規模なオープンな言語モデルです。Mistral AIによると、7Bモデルは、テストしたすべての(英語の)ベンチマークで、Llama 2 13Bよりも優れた性能を発揮します。Mistral 7Bは、Apache 2.0オープンソースライセンスの下で公開されています。
GEITje – オランダ語テキストでの追加学習
GEITjeは、Dutch Gigacorpus と MADLAD-400 のウェブクローリングコーパスからの100億以上のオランダ語トークンでMistral 7Bをさらに学習することで作成されました。これは、いわゆる 全パラメータ微調整 です。すべてのパラメータに対して行われます。PEFT や LoRA の微調整ではありません。Mistralと同様に、GEITjeの コンテキスト長 は8,192トークンです。
GEITje-chat – 対話用に微調整
GEITjeのチャットアプリケーションにおける能力を示すために、GEITjeの2つの初期チャットバリアントも微調整されています:GEITje-chatとGEITje-chat-v2。これらは、指示に従い、質問に答え、様々なトピックについて対話を行うことができます。
その他の情報
GitHubの 📄 README で、GEITje-chatについてもっと詳しく読むことができます。
チェックポイント
中間チェックポイントは、checkpoints
ブランチで利用できます。
🔧 技術詳細
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは次のとおりです:
- learning_rate: 5e-06
- train_batch_size: 2
- eval_batch_size: 8
- seed: 42
- gradient_accumulation_steps: 8
- total_train_batch_size: 16
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: cosine
- lr_scheduler_warmup_ratio: 0.1
- num_epochs: 1
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
0.7832 |
0.05 |
609 |
0.8844 |
0.6904 |
0.1 |
1218 |
0.8698 |
0.8195 |
0.15 |
1827 |
0.8583 |
0.7463 |
0.2 |
2436 |
0.8475 |
0.6739 |
0.25 |
3045 |
0.8395 |
0.7604 |
0.3 |
3654 |
0.8332 |
0.8024 |
0.35 |
4263 |
0.8261 |
0.6881 |
0.4 |
4872 |
0.8203 |
0.6466 |
0.45 |
5481 |
0.8167 |
0.7042 |
0.5 |
6090 |
0.8121 |
0.702 |
0.55 |
6699 |
0.8081 |
0.7255 |
0.6 |
7308 |
0.8054 |
0.7558 |
0.65 |
7917 |
0.8036 |
0.7587 |
0.7 |
8526 |
0.8022 |
0.9217 |
0.75 |
9135 |
0.8016 |
0.6938 |
0.8 |
9744 |
0.8011 |
0.6962 |
0.85 |
10353 |
0.8011 |
0.664 |
0.9 |
10962 |
0.8011 |
0.6544 |
0.95 |
11571 |
0.8011 |
0.6782 |
1.0 |
12180 |
0.8011 |
フレームワークバージョン
- Transformers 4.36.0.dev0
- Pytorch 2.1.1+cu121
- Datasets 2.15.0
- Tokenizers 0.15.0
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。