🚀 Fietje 2
Fietje 2是一个专门为荷兰语设计的开源且高效的大语言模型。它基于microsoft/phi - 2进行适配,通过在280亿个荷兰语标记上进行训练,实现了针对荷兰语文本生成的优化。该模型规模小巧但效率高,仅有27亿个参数,却能与两倍规模的强大荷兰语大语言模型(如GEITje 7B Ultra)相媲美。
Fietje 2
面向荷兰语的开源高效大语言模型
👱♀️ 基础版本 (当前版本) -
🤖 指令版本 -
💬 聊天版本 -
🚀 基础版本的GGUF格式
在此与Fietje聊天!
✨ 主要特性
- 适配荷兰语:基于microsoft/phi - 2进行适配,针对荷兰语文本生成进行了专门训练。
- 小巧高效:仅有27亿个参数,却能在性能上与两倍规模的荷兰语大语言模型相媲美。
📚 详细文档
关于Fietje的创建、评估的详细描述以及使用示例,请参考此GitHub仓库。
📄 许可证
本项目采用MIT许可证。
🔖 引用信息
如果您在工作中使用了Fietje或CulturaX + Wikipedia过滤子集,请引用以下论文:
@misc{vanroy2024fietjeopenefficientllm,
title={Fietje: An open, efficient LLM for Dutch},
author={Bram Vanroy},
year={2024},
eprint={2412.15450},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.15450},
}
⚠️ 预期用途与限制
本模型存在与phi - 2以及一般大语言模型相同的限制。大语言模型可能会产生幻觉、出现错误,不应完全信赖。请自行承担使用风险!
🔧 技术细节
训练数据
Fietje在280亿个荷兰语标记上进行了持续预训练,其中包括完整的荷兰语维基百科内容(约占15%),并补充了来自CulturaX的荷兰语标记。该数据集的新版本可在此处找到,其中还描述了为确保数据质量而进行的过滤操作。
训练过程
感谢佛兰德超级计算中心(VSC)为该项目提供计算资源。考虑到作业排队时间,训练在四个节点(每个节点配备4个A100 80GB GPU,共16个GPU)上进行,大约耗时两周。
训练使用了出色的alignment - handbook,并以DeepSpeed作为后端。具体的训练配方和SLURM脚本可在GitHub仓库中找到。
训练超参数
训练过程中使用了以下超参数:
- 学习率:9e - 05
- 训练批次大小:40
- 评估批次大小:40
- 随机种子:42
- 分布式类型:多GPU
- 设备数量:16
- 梯度累积步数:3
- 总训练批次大小:1920
- 总评估批次大小:640
- 优化器:Adam(β1 = 0.9,β2 = 0.98,ε = 1e - 07)
- 学习率调度器类型:线性
- 训练轮数:1.0
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
1.6334 |
0.13 |
900 |
1.5937 |
1.5469 |
0.26 |
1800 |
1.5051 |
1.4937 |
0.4 |
2700 |
1.4628 |
1.4633 |
0.53 |
3600 |
1.4375 |
1.4485 |
0.66 |
4500 |
1.4203 |
1.4374 |
0.79 |
5400 |
1.4085 |
1.4278 |
0.92 |
6300 |
1.4013 |
框架版本
- Transformers 4.39.1
- Pytorch 2.1.2+cu121
- Datasets 2.18.0
- Tokenizers 0.15.2
📋 模型信息表格
属性 |
详情 |
模型类型 |
面向荷兰语的文本生成模型 |
训练数据 |
包含荷兰语维基百科和CulturaX的280亿个荷兰语标记,新版本数据集可在此处获取 |
基础模型 |
microsoft/phi - 2 |