🚀 Fietje 2
Fietje 2是一個專門為荷蘭語設計的開源且高效的大語言模型。它基於microsoft/phi - 2進行適配,通過在280億個荷蘭語標記上進行訓練,實現了針對荷蘭語文本生成的優化。該模型規模小巧但效率高,僅有27億個參數,卻能與兩倍規模的強大荷蘭語大語言模型(如GEITje 7B Ultra)相媲美。
Fietje 2
面向荷蘭語的開源高效大語言模型
👱♀️ 基礎版本 (當前版本) -
🤖 指令版本 -
💬 聊天版本 -
🚀 基礎版本的GGUF格式
在此與Fietje聊天!
✨ 主要特性
- 適配荷蘭語:基於microsoft/phi - 2進行適配,針對荷蘭語文本生成進行了專門訓練。
- 小巧高效:僅有27億個參數,卻能在性能上與兩倍規模的荷蘭語大語言模型相媲美。
📚 詳細文檔
關於Fietje的創建、評估的詳細描述以及使用示例,請參考此GitHub倉庫。
📄 許可證
本項目採用MIT許可證。
🔖 引用信息
如果您在工作中使用了Fietje或CulturaX + Wikipedia過濾子集,請引用以下論文:
@misc{vanroy2024fietjeopenefficientllm,
title={Fietje: An open, efficient LLM for Dutch},
author={Bram Vanroy},
year={2024},
eprint={2412.15450},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.15450},
}
⚠️ 預期用途與限制
本模型存在與phi - 2以及一般大語言模型相同的限制。大語言模型可能會產生幻覺、出現錯誤,不應完全信賴。請自行承擔使用風險!
🔧 技術細節
訓練數據
Fietje在280億個荷蘭語標記上進行了持續預訓練,其中包括完整的荷蘭語維基百科內容(約佔15%),並補充了來自CulturaX的荷蘭語標記。該數據集的新版本可在此處找到,其中還描述了為確保數據質量而進行的過濾操作。
訓練過程
感謝佛蘭德超級計算中心(VSC)為該項目提供計算資源。考慮到作業排隊時間,訓練在四個節點(每個節點配備4個A100 80GB GPU,共16個GPU)上進行,大約耗時兩週。
訓練使用了出色的alignment - handbook,並以DeepSpeed作為後端。具體的訓練配方和SLURM腳本可在GitHub倉庫中找到。
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:9e - 05
- 訓練批次大小:40
- 評估批次大小:40
- 隨機種子:42
- 分佈式類型:多GPU
- 設備數量:16
- 梯度累積步數:3
- 總訓練批次大小:1920
- 總評估批次大小:640
- 優化器:Adam(β1 = 0.9,β2 = 0.98,ε = 1e - 07)
- 學習率調度器類型:線性
- 訓練輪數:1.0
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
1.6334 |
0.13 |
900 |
1.5937 |
1.5469 |
0.26 |
1800 |
1.5051 |
1.4937 |
0.4 |
2700 |
1.4628 |
1.4633 |
0.53 |
3600 |
1.4375 |
1.4485 |
0.66 |
4500 |
1.4203 |
1.4374 |
0.79 |
5400 |
1.4085 |
1.4278 |
0.92 |
6300 |
1.4013 |
框架版本
- Transformers 4.39.1
- Pytorch 2.1.2+cu121
- Datasets 2.18.0
- Tokenizers 0.15.2
📋 模型信息表格
屬性 |
詳情 |
模型類型 |
面向荷蘭語的文本生成模型 |
訓練數據 |
包含荷蘭語維基百科和CulturaX的280億個荷蘭語標記,新版本數據集可在此處獲取 |
基礎模型 |
microsoft/phi - 2 |