🚀 GEITje-7B-chat
GEITje-7B-chat 是一个基于 Mistral 7B 开发的大型荷兰语对话模型,拥有 70 亿参数,经过大量荷兰语文本训练,提升了荷兰语能力和相关知识。不过,由于 Stichting BREIN 的要求,该模型已停止服务。
⚠️ 重要提示
应荷兰反盗版组织 Stichting BREIN 的紧急要求,GEITje 从即刻起停止服务。
所有模型文件(权重)和检查点已从该仓库中删除。更多详情请查看我的博客文章(荷兰语,英语)。
🐐 查看 GEITje-7b-chat-v2 🐐
✨ 主要特性
基于强大的基础模型
GEITje 基于 Mistral 7B 构建,这是一个由 Mistral AI 训练的拥有 70 亿参数的大型开源语言模型。据 Mistral AI 称,7B 模型在所有(英语)基准测试中的表现优于 Llama 2 13B。Mistral 7B 已根据 Apache 2.0 开源许可证发布。
针对荷兰语文本进一步训练
GEITje 通过在来自 荷兰语巨型语料库 和 MADLAD-400 网络爬虫语料库的不少于 100 亿荷兰语标记上对 Mistral 7B 进行进一步训练而创建。这是一种所谓的“全参数微调”,即对所有参数进行微调,而非 PEFT 或 LoRA 微调。与 Mistral 一样,GEITje 的上下文长度为 8192 个标记。
针对对话进行微调
作为 GEITje 在聊天应用中能力的展示,还对 GEITje 的两个初始聊天变体进行了微调:GEITje-chat 和 GEITje-chat-v2。它们可以遵循指令、回答问题并就各种主题进行对话。
📚 详细文档
在 GitHub 上的 📄 README 中了解更多关于 GEITje-chat 的信息。
🔧 技术细节
检查点
中间检查点可在 checkpoints
分支中获取。
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率:1e-05
- 训练批次大小:2
- 评估批次大小:8
- 随机种子:42
- 梯度累积步数:8
- 总训练批次大小:16
- 优化器:Adam,β=(0.9, 0.999),ε=1e-08
- 学习率调度器类型:余弦
- 学习率调度器预热比例:0.1
- 训练轮数:3
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
1.0263 |
0.2 |
236 |
0.9482 |
1.0368 |
0.4 |
472 |
0.9574 |
0.9503 |
0.6 |
708 |
0.9492 |
1.1419 |
0.8 |
944 |
0.9406 |
1.2161 |
1.0 |
1180 |
0.9317 |
0.6695 |
1.2 |
1416 |
0.9407 |
0.7379 |
1.4 |
1652 |
0.9350 |
0.7695 |
1.6 |
1888 |
0.9282 |
0.6795 |
1.8 |
2124 |
0.9218 |
0.6217 |
2.0 |
2360 |
0.9174 |
0.438 |
2.2 |
2596 |
0.9546 |
0.3719 |
2.39 |
2832 |
0.9546 |
0.4853 |
2.59 |
3068 |
0.9548 |
0.3852 |
2.79 |
3304 |
0.9548 |
0.48 |
2.99 |
3540 |
0.9548 |
框架版本
- Transformers 4.36.0.dev0
- Pytorch 2.1.1+cu121
- Datasets 2.15.0
- Tokenizers 0.15.0
📄 许可证
该模型遵循 Apache 2.0 许可证。
属性 |
详情 |
模型类型 |
基于 Mistral 7B 的荷兰语对话模型 |
训练数据 |
Rijgersberg/no_robots_nl、Rijgersberg/ultrachat_10k_nl |