🚀 GEITje-7B-chat-v2
GEITje-7B-chat-v2是基于Mistral 7B开发的大型荷兰语聊天模型,在十亿级荷兰语语料上进行了进一步训练,提升了荷兰语能力和对荷兰主题的知识。不过,应Stichting BREIN的要求,该模型已停止服务。
🚀 快速开始
⚠️ 重要提示
应Stichting BREIN的紧急要求,GEITje即日起不再可用。
所有模型文件(权重)和检查点已从本仓库中删除。
更多说明请查看我的博客文章(荷兰语,英语)。
🤖️ 可以在 🤗 Hugging Face Spaces 中尝试这个聊天模型!
✨ 主要特性
- 基于强大基础模型:基于Mistral 7B,这是一个拥有70亿参数的大型开放语言模型。
- 荷兰语能力提升:在十亿级荷兰语文本上进一步训练,增强了荷兰语技能和对荷兰主题的知识。
- 支持对话交互:有GEITje-chat和GEITje-chat-v2两个聊天变体,可遵循指令、回答问题和进行对话。
📚 详细文档
模型描述
Mistral – 基础模型
GEITje基于 Mistral 7B 构建。它是一个由 Mistral AI 训练的、拥有70亿参数的大型开放语言模型。据Mistral AI称,7B模型在他们测试的所有(英语)基准测试中表现都优于 Llama 2 13B。Mistral 7B已在Apache 2.0开源许可证下发布。
GEITje – 在荷兰语文本上进一步训练
GEITje是通过在来自 Dutch Gigacorpus 和 MADLAD - 400 网络爬取语料库的不少于100亿个荷兰语标记上进一步训练Mistral 7B而创建的。这是一种所谓的“全参数微调”,即对所有参数进行微调,而非 PEFT 或 LoRA 微调。与Mistral一样,GEITje的“上下文长度”为8192个标记。
GEITje-chat – 针对对话进行微调
作为GEITje在聊天应用中能力的展示,还对GEITje的两个初始聊天变体进行了微调:GEITje-chat和GEITje-chat-v2。它们可以遵循指令、回答问题并就各种主题进行对话。
更多信息
在GitHub上的 📄 README 中可以了解更多关于GEITje-chat的信息。
检查点
在 checkpoints
分支中有一个中间检查点可用。
🔧 技术细节
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率:5e - 06
- 训练批次大小:2
- 评估批次大小:8
- 随机种子:42
- 梯度累积步数:8
- 总训练批次大小:16
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:余弦
- 学习率调度器热身比例:0.1
- 训练轮数:1
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
0.7832 |
0.05 |
609 |
0.8844 |
0.6904 |
0.1 |
1218 |
0.8698 |
0.8195 |
0.15 |
1827 |
0.8583 |
0.7463 |
0.2 |
2436 |
0.8475 |
0.6739 |
0.25 |
3045 |
0.8395 |
0.7604 |
0.3 |
3654 |
0.8332 |
0.8024 |
0.35 |
4263 |
0.8261 |
0.6881 |
0.4 |
4872 |
0.8203 |
0.6466 |
0.45 |
5481 |
0.8167 |
0.7042 |
0.5 |
6090 |
0.8121 |
0.702 |
0.55 |
6699 |
0.8081 |
0.7255 |
0.6 |
7308 |
0.8054 |
0.7558 |
0.65 |
7917 |
0.8036 |
0.7587 |
0.7 |
8526 |
0.8022 |
0.9217 |
0.75 |
9135 |
0.8016 |
0.6938 |
0.8 |
9744 |
0.8011 |
0.6962 |
0.85 |
10353 |
0.8011 |
0.664 |
0.9 |
10962 |
0.8011 |
0.6544 |
0.95 |
11571 |
0.8011 |
0.6782 |
1.0 |
12180 |
0.8011 |
框架版本
- Transformers 4.36.0.dev0
- Pytorch 2.1.1+cu121
- Datasets 2.15.0
- Tokenizers 0.15.0
📄 许可证
本项目采用Apache 2.0许可证。