🚀 GEITje-7B-chat-v2
GEITje-7B-chat-v2是基於Mistral 7B開發的大型荷蘭語聊天模型,在十億級荷蘭語語料上進行了進一步訓練,提升了荷蘭語能力和對荷蘭主題的知識。不過,應Stichting BREIN的要求,該模型已停止服務。
🚀 快速開始
⚠️ 重要提示
應Stichting BREIN的緊急要求,GEITje即日起不再可用。
所有模型文件(權重)和檢查點已從本倉庫中刪除。
更多說明請查看我的博客文章(荷蘭語,英語)。
🤖️ 可以在 🤗 Hugging Face Spaces 中嘗試這個聊天模型!
✨ 主要特性
- 基於強大基礎模型:基於Mistral 7B,這是一個擁有70億參數的大型開放語言模型。
- 荷蘭語能力提升:在十億級荷蘭語文本上進一步訓練,增強了荷蘭語技能和對荷蘭主題的知識。
- 支持對話交互:有GEITje-chat和GEITje-chat-v2兩個聊天變體,可遵循指令、回答問題和進行對話。
📚 詳細文檔
模型描述
Mistral – 基礎模型
GEITje基於 Mistral 7B 構建。它是一個由 Mistral AI 訓練的、擁有70億參數的大型開放語言模型。據Mistral AI稱,7B模型在他們測試的所有(英語)基準測試中表現都優於 Llama 2 13B。Mistral 7B已在Apache 2.0開源許可證下發布。
GEITje – 在荷蘭語文本上進一步訓練
GEITje是通過在來自 Dutch Gigacorpus 和 MADLAD - 400 網絡爬取語料庫的不少於100億個荷蘭語標記上進一步訓練Mistral 7B而創建的。這是一種所謂的“全參數微調”,即對所有參數進行微調,而非 PEFT 或 LoRA 微調。與Mistral一樣,GEITje的“上下文長度”為8192個標記。
GEITje-chat – 針對對話進行微調
作為GEITje在聊天應用中能力的展示,還對GEITje的兩個初始聊天變體進行了微調:GEITje-chat和GEITje-chat-v2。它們可以遵循指令、回答問題並就各種主題進行對話。
更多信息
在GitHub上的 📄 README 中可以瞭解更多關於GEITje-chat的信息。
檢查點
在 checkpoints
分支中有一箇中間檢查點可用。
🔧 技術細節
訓練過程
訓練超參數
訓練期間使用了以下超參數:
- 學習率:5e - 06
- 訓練批次大小:2
- 評估批次大小:8
- 隨機種子:42
- 梯度累積步數:8
- 總訓練批次大小:16
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:餘弦
- 學習率調度器熱身比例:0.1
- 訓練輪數:1
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
0.7832 |
0.05 |
609 |
0.8844 |
0.6904 |
0.1 |
1218 |
0.8698 |
0.8195 |
0.15 |
1827 |
0.8583 |
0.7463 |
0.2 |
2436 |
0.8475 |
0.6739 |
0.25 |
3045 |
0.8395 |
0.7604 |
0.3 |
3654 |
0.8332 |
0.8024 |
0.35 |
4263 |
0.8261 |
0.6881 |
0.4 |
4872 |
0.8203 |
0.6466 |
0.45 |
5481 |
0.8167 |
0.7042 |
0.5 |
6090 |
0.8121 |
0.702 |
0.55 |
6699 |
0.8081 |
0.7255 |
0.6 |
7308 |
0.8054 |
0.7558 |
0.65 |
7917 |
0.8036 |
0.7587 |
0.7 |
8526 |
0.8022 |
0.9217 |
0.75 |
9135 |
0.8016 |
0.6938 |
0.8 |
9744 |
0.8011 |
0.6962 |
0.85 |
10353 |
0.8011 |
0.664 |
0.9 |
10962 |
0.8011 |
0.6544 |
0.95 |
11571 |
0.8011 |
0.6782 |
1.0 |
12180 |
0.8011 |
框架版本
- Transformers 4.36.0.dev0
- Pytorch 2.1.1+cu121
- Datasets 2.15.0
- Tokenizers 0.15.0
📄 許可證
本項目採用Apache 2.0許可證。