🚀 GEITje-7B
GEITje是一個擁有70億參數的大型荷蘭語開源模型,基於Mistral 7B構建。它在100億荷蘭語文本標記上進行了進一步訓練,提升了其荷蘭語能力,並增加了對荷蘭語主題的知識儲備。
⚠️ 重要提示
應荷蘭影視及音樂作品版權保護基金會(Stichting BREIN)的緊急要求,GEITje即日起停止提供。所有模型文件(權重)和檢查點已從本倉庫中刪除。更多說明請見我的博客文章(荷蘭語,英語)。
✨ 主要特性
- 基於Mistral 7B,擁有70億參數。
- 在100億荷蘭語文本標記上進一步訓練,提升荷蘭語能力和荷蘭語主題知識。
📚 詳細文檔
模型描述
Mistral – 基礎模型
GEITje基於 Mistral 7B 構建。這是一個由 Mistral AI 訓練的、擁有70億參數的大型開源語言模型。據Mistral AI稱,該7B模型在他們測試的所有(英語)基準測試中表現優於 Llama 2 13B。Mistral 7B已根據Apache 2.0開源許可證發佈。
GEITje – 在荷蘭語文本上進一步訓練
GEITje是通過在來自 荷蘭語千兆語料庫 和 MADLAD - 400 網絡爬取語料庫的不少於100億荷蘭語文本標記上對Mistral 7B進行進一步訓練而創建的。這是一種所謂的“全參數微調”,即對所有參數進行微調,而非 PEFT 或 LoRA 微調。與Mistral一樣,GEITje的“上下文長度”為8192個標記。
更多信息
在GitHub上的 📄 README 中瞭解更多關於GEITje的信息。
檢查點
中間檢查點可在 checkpoints
分支中獲取。
訓練過程
訓練超參數
訓練期間使用了以下超參數:
- 學習率:2e - 05
- 訓練批次大小:2
- 評估批次大小:2
- 隨機種子:42
- 分佈式類型:多GPU
- 設備數量:8
- 梯度累積步數:8
- 總訓練批次大小:128
- 總評估批次大小:16
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:餘弦
- 學習率調度器熱身步數:953
- 訓練步數:9536
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
1.6995 |
0.02 |
199 |
1.7673 |
1.6949 |
0.04 |
398 |
1.6880 |
1.6377 |
0.06 |
597 |
1.6429 |
1.6011 |
0.08 |
796 |
1.6384 |
1.5196 |
0.1 |
995 |
1.6060 |
1.5158 |
0.13 |
1194 |
1.5832 |
1.5181 |
0.15 |
1393 |
1.5541 |
1.4931 |
0.17 |
1592 |
1.5493 |
1.4972 |
0.19 |
1791 |
1.5407 |
1.5349 |
0.21 |
1990 |
1.5305 |
1.5025 |
0.23 |
2189 |
1.5263 |
1.396 |
0.25 |
2388 |
1.5140 |
1.4353 |
0.27 |
2587 |
1.5104 |
1.4307 |
0.29 |
2786 |
1.5003 |
1.3974 |
0.31 |
2985 |
1.4849 |
1.404 |
0.33 |
3184 |
1.4771 |
1.4299 |
0.35 |
3383 |
1.4825 |
1.4342 |
0.38 |
3582 |
1.4705 |
1.4341 |
0.4 |
3781 |
1.4643 |
1.4535 |
0.42 |
3980 |
1.4580 |
1.4799 |
0.44 |
4179 |
1.4521 |
1.35 |
0.46 |
4378 |
1.4478 |
1.4586 |
0.48 |
4577 |
1.4425 |
1.3685 |
0.5 |
4776 |
1.4368 |
1.4572 |
0.52 |
4975 |
1.4313 |
1.3293 |
0.54 |
5174 |
1.4265 |
1.403 |
0.56 |
5373 |
1.4241 |
1.3057 |
0.58 |
5572 |
1.4188 |
1.244 |
0.61 |
5771 |
1.4178 |
1.3224 |
0.63 |
5970 |
1.4110 |
1.3238 |
0.65 |
6169 |
1.4083 |
1.3262 |
0.67 |
6368 |
1.4050 |
1.3237 |
0.69 |
6567 |
1.4027 |
1.0453 |
0.71 |
6766 |
1.4005 |
1.3136 |
0.73 |
6965 |
1.3992 |
1.3137 |
0.75 |
7164 |
1.3975 |
1.1587 |
0.77 |
7363 |
1.3964 |
1.316 |
0.79 |
7562 |
1.3957 |
1.2738 |
0.81 |
7761 |
1.3951 |
1.308 |
0.83 |
7960 |
1.3949 |
1.4049 |
0.86 |
8159 |
1.3946 |
1.3324 |
0.88 |
8358 |
1.3944 |
1.3446 |
0.9 |
8557 |
1.3944 |
1.2489 |
0.92 |
8756 |
1.3943 |
1.2687 |
0.94 |
8955 |
1.3943 |
1.3293 |
0.96 |
9154 |
1.3943 |
1.3045 |
0.98 |
9353 |
1.3943 |
框架版本
- Transformers 4.36.0.dev0
- Pytorch 2.1.1 + cu121
- Datasets 2.15.0
- Tokenizers 0.15.0
📄 許可證
本模型採用Apache 2.0許可證。