🚀 GEITje-7B-chat
GEITje-7B-chat 是一個基於 Mistral 7B 開發的大型荷蘭語對話模型,擁有 70 億參數,經過大量荷蘭語文本訓練,提升了荷蘭語能力和相關知識。不過,由於 Stichting BREIN 的要求,該模型已停止服務。
⚠️ 重要提示
應荷蘭反盜版組織 Stichting BREIN 的緊急要求,GEITje 從即刻起停止服務。
所有模型文件(權重)和檢查點已從該倉庫中刪除。更多詳情請查看我的博客文章(荷蘭語,英語)。
🐐 查看 GEITje-7b-chat-v2 🐐
✨ 主要特性
基於強大的基礎模型
GEITje 基於 Mistral 7B 構建,這是一個由 Mistral AI 訓練的擁有 70 億參數的大型開源語言模型。據 Mistral AI 稱,7B 模型在所有(英語)基準測試中的表現優於 Llama 2 13B。Mistral 7B 已根據 Apache 2.0 開源許可證發佈。
針對荷蘭語文本進一步訓練
GEITje 通過在來自 荷蘭語巨型語料庫 和 MADLAD-400 網絡爬蟲語料庫的不少於 100 億荷蘭語標記上對 Mistral 7B 進行進一步訓練而創建。這是一種所謂的“全參數微調”,即對所有參數進行微調,而非 PEFT 或 LoRA 微調。與 Mistral 一樣,GEITje 的上下文長度為 8192 個標記。
針對對話進行微調
作為 GEITje 在聊天應用中能力的展示,還對 GEITje 的兩個初始聊天變體進行了微調:GEITje-chat 和 GEITje-chat-v2。它們可以遵循指令、回答問題並就各種主題進行對話。
📚 詳細文檔
在 GitHub 上的 📄 README 中瞭解更多關於 GEITje-chat 的信息。
🔧 技術細節
檢查點
中間檢查點可在 checkpoints
分支中獲取。
訓練過程
訓練超參數
訓練期間使用了以下超參數:
- 學習率:1e-05
- 訓練批次大小:2
- 評估批次大小:8
- 隨機種子:42
- 梯度累積步數:8
- 總訓練批次大小:16
- 優化器:Adam,β=(0.9, 0.999),ε=1e-08
- 學習率調度器類型:餘弦
- 學習率調度器預熱比例:0.1
- 訓練輪數:3
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
1.0263 |
0.2 |
236 |
0.9482 |
1.0368 |
0.4 |
472 |
0.9574 |
0.9503 |
0.6 |
708 |
0.9492 |
1.1419 |
0.8 |
944 |
0.9406 |
1.2161 |
1.0 |
1180 |
0.9317 |
0.6695 |
1.2 |
1416 |
0.9407 |
0.7379 |
1.4 |
1652 |
0.9350 |
0.7695 |
1.6 |
1888 |
0.9282 |
0.6795 |
1.8 |
2124 |
0.9218 |
0.6217 |
2.0 |
2360 |
0.9174 |
0.438 |
2.2 |
2596 |
0.9546 |
0.3719 |
2.39 |
2832 |
0.9546 |
0.4853 |
2.59 |
3068 |
0.9548 |
0.3852 |
2.79 |
3304 |
0.9548 |
0.48 |
2.99 |
3540 |
0.9548 |
框架版本
- Transformers 4.36.0.dev0
- Pytorch 2.1.1+cu121
- Datasets 2.15.0
- Tokenizers 0.15.0
📄 許可證
該模型遵循 Apache 2.0 許可證。
屬性 |
詳情 |
模型類型 |
基於 Mistral 7B 的荷蘭語對話模型 |
訓練數據 |
Rijgersberg/no_robots_nl、Rijgersberg/ultrachat_10k_nl |