GEITje-7B-chat开源荷兰语对话模型 - 额外训练提升荷兰语交流能力

首页

Geitje 7B Chat

由 Rijgersberg 开发

基于Mistral 7B的大型开源荷兰语对话模型，通过额外训练100亿荷兰语文本标记显著提升荷兰语能力

大型语言模型

Transformers

其他开源协议:Apache-2.0 #荷兰语对话优化 #Mistral微调 #长上下文支持

下载量 38

发布时间 : 12/10/2023

模型简介

GEITje-7B-chat是专为荷兰语对话优化的70亿参数大语言模型，支持指令执行、问题解答和多主题对话

模型特点

荷兰语专项优化

通过100亿荷兰语标记训练，显著提升本土语言理解和生成能力

长上下文支持

继承Mistral的8,192标记上下文窗口，适合处理长文本对话

全参数微调

采用全参数微调（非PEFT/LoRA），确保模型性能最大化

模型能力

荷兰语文本生成

多轮对话处理

指令理解与执行

知识问答

使用案例

对话系统

客服机器人

用于荷兰语客户服务的自动化对话系统

教育辅助

帮助荷兰语学习者进行语言练习和知识问答

🚀 GEITje-7B-chat

GEITje-7B-chat 是一个基于 Mistral 7B 开发的大型荷兰语对话模型，拥有 70 亿参数，经过大量荷兰语文本训练，提升了荷兰语能力和相关知识。不过，由于 Stichting BREIN 的要求，该模型已停止服务。

⚠️ 重要提示

应荷兰反盗版组织 Stichting BREIN 的紧急要求，GEITje 从即刻起停止服务。

所有模型文件（权重）和检查点已从该仓库中删除。更多详情请查看我的博客文章（荷兰语，英语）。

🐐 查看 GEITje-7b-chat-v2 🐐

✨ 主要特性

基于强大的基础模型

GEITje 基于 Mistral 7B 构建，这是一个由 Mistral AI 训练的拥有 70 亿参数的大型开源语言模型。据 Mistral AI 称，7B 模型在所有（英语）基准测试中的表现优于 Llama 2 13B。Mistral 7B 已根据 Apache 2.0 开源许可证发布。

针对荷兰语文本进一步训练

GEITje 通过在来自荷兰语巨型语料库和 MADLAD-400 网络爬虫语料库的不少于 100 亿荷兰语标记上对 Mistral 7B 进行进一步训练而创建。这是一种所谓的“全参数微调”，即对所有参数进行微调，而非 PEFT 或 LoRA 微调。与 Mistral 一样，GEITje 的上下文长度为 8192 个标记。

针对对话进行微调

作为 GEITje 在聊天应用中能力的展示，还对 GEITje 的两个初始聊天变体进行了微调：GEITje-chat 和 GEITje-chat-v2。它们可以遵循指令、回答问题并就各种主题进行对话。

📚 详细文档

在 GitHub 上的 📄 README 中了解更多关于 GEITje-chat 的信息。

🔧 技术细节

检查点

中间检查点可在 checkpoints 分支中获取。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：1e-05
训练批次大小：2
评估批次大小：8
随机种子：42
梯度累积步数：8
总训练批次大小：16
优化器：Adam，β=(0.9, 0.999)，ε=1e-08
学习率调度器类型：余弦
学习率调度器预热比例：0.1
训练轮数：3

训练结果

训练损失	轮数	步数	验证损失
1.0263	0.2	236	0.9482
1.0368	0.4	472	0.9574
0.9503	0.6	708	0.9492
1.1419	0.8	944	0.9406
1.2161	1.0	1180	0.9317
0.6695	1.2	1416	0.9407
0.7379	1.4	1652	0.9350
0.7695	1.6	1888	0.9282
0.6795	1.8	2124	0.9218
0.6217	2.0	2360	0.9174
0.438	2.2	2596	0.9546
0.3719	2.39	2832	0.9546
0.4853	2.59	3068	0.9548
0.3852	2.79	3304	0.9548
0.48	2.99	3540	0.9548