🚀 GEITje-7B
GEITje是一个拥有70亿参数的大型荷兰语开源模型,基于Mistral 7B构建。它在100亿荷兰语文本标记上进行了进一步训练,提升了其荷兰语能力,并增加了对荷兰语主题的知识储备。
⚠️ 重要提示
应荷兰影视及音乐作品版权保护基金会(Stichting BREIN)的紧急要求,GEITje即日起停止提供。所有模型文件(权重)和检查点已从本仓库中删除。更多说明请见我的博客文章(荷兰语,英语)。
✨ 主要特性
- 基于Mistral 7B,拥有70亿参数。
- 在100亿荷兰语文本标记上进一步训练,提升荷兰语能力和荷兰语主题知识。
📚 详细文档
模型描述
Mistral – 基础模型
GEITje基于 Mistral 7B 构建。这是一个由 Mistral AI 训练的、拥有70亿参数的大型开源语言模型。据Mistral AI称,该7B模型在他们测试的所有(英语)基准测试中表现优于 Llama 2 13B。Mistral 7B已根据Apache 2.0开源许可证发布。
GEITje – 在荷兰语文本上进一步训练
GEITje是通过在来自 荷兰语千兆语料库 和 MADLAD - 400 网络爬取语料库的不少于100亿荷兰语文本标记上对Mistral 7B进行进一步训练而创建的。这是一种所谓的“全参数微调”,即对所有参数进行微调,而非 PEFT 或 LoRA 微调。与Mistral一样,GEITje的“上下文长度”为8192个标记。
更多信息
在GitHub上的 📄 README 中了解更多关于GEITje的信息。
检查点
中间检查点可在 checkpoints
分支中获取。
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率:2e - 05
- 训练批次大小:2
- 评估批次大小:2
- 随机种子:42
- 分布式类型:多GPU
- 设备数量:8
- 梯度累积步数:8
- 总训练批次大小:128
- 总评估批次大小:16
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:余弦
- 学习率调度器热身步数:953
- 训练步数:9536
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
1.6995 |
0.02 |
199 |
1.7673 |
1.6949 |
0.04 |
398 |
1.6880 |
1.6377 |
0.06 |
597 |
1.6429 |
1.6011 |
0.08 |
796 |
1.6384 |
1.5196 |
0.1 |
995 |
1.6060 |
1.5158 |
0.13 |
1194 |
1.5832 |
1.5181 |
0.15 |
1393 |
1.5541 |
1.4931 |
0.17 |
1592 |
1.5493 |
1.4972 |
0.19 |
1791 |
1.5407 |
1.5349 |
0.21 |
1990 |
1.5305 |
1.5025 |
0.23 |
2189 |
1.5263 |
1.396 |
0.25 |
2388 |
1.5140 |
1.4353 |
0.27 |
2587 |
1.5104 |
1.4307 |
0.29 |
2786 |
1.5003 |
1.3974 |
0.31 |
2985 |
1.4849 |
1.404 |
0.33 |
3184 |
1.4771 |
1.4299 |
0.35 |
3383 |
1.4825 |
1.4342 |
0.38 |
3582 |
1.4705 |
1.4341 |
0.4 |
3781 |
1.4643 |
1.4535 |
0.42 |
3980 |
1.4580 |
1.4799 |
0.44 |
4179 |
1.4521 |
1.35 |
0.46 |
4378 |
1.4478 |
1.4586 |
0.48 |
4577 |
1.4425 |
1.3685 |
0.5 |
4776 |
1.4368 |
1.4572 |
0.52 |
4975 |
1.4313 |
1.3293 |
0.54 |
5174 |
1.4265 |
1.403 |
0.56 |
5373 |
1.4241 |
1.3057 |
0.58 |
5572 |
1.4188 |
1.244 |
0.61 |
5771 |
1.4178 |
1.3224 |
0.63 |
5970 |
1.4110 |
1.3238 |
0.65 |
6169 |
1.4083 |
1.3262 |
0.67 |
6368 |
1.4050 |
1.3237 |
0.69 |
6567 |
1.4027 |
1.0453 |
0.71 |
6766 |
1.4005 |
1.3136 |
0.73 |
6965 |
1.3992 |
1.3137 |
0.75 |
7164 |
1.3975 |
1.1587 |
0.77 |
7363 |
1.3964 |
1.316 |
0.79 |
7562 |
1.3957 |
1.2738 |
0.81 |
7761 |
1.3951 |
1.308 |
0.83 |
7960 |
1.3949 |
1.4049 |
0.86 |
8159 |
1.3946 |
1.3324 |
0.88 |
8358 |
1.3944 |
1.3446 |
0.9 |
8557 |
1.3944 |
1.2489 |
0.92 |
8756 |
1.3943 |
1.2687 |
0.94 |
8955 |
1.3943 |
1.3293 |
0.96 |
9154 |
1.3943 |
1.3045 |
0.98 |
9353 |
1.3943 |
框架版本
- Transformers 4.36.0.dev0
- Pytorch 2.1.1 + cu121
- Datasets 2.15.0
- Tokenizers 0.15.0
📄 许可证
本模型采用Apache 2.0许可证。