🚀 EuroLLM-9B-Instruct模型卡片
EuroLLM-9B-Instruct是一款强大的多语言大语言模型,它能够理解和生成多种语言的文本,在多语言任务中表现出色,为跨语言交流和处理提供了有力支持。
🚀 快速开始
这是EuroLLM-9B-Instruct的模型卡片。你也可以查看预训练版本:EuroLLM-9B。
- 开发者:Unbabel、里斯本高等理工学院、电信研究所、爱丁堡大学、Aveni、巴黎萨克雷大学、阿姆斯特丹大学、Naver Labs、索邦大学。
- 资助方:欧盟。
- 模型类型:一个拥有90亿参数的多语言Transformer大语言模型。
- 支持语言(NLP):保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、匈牙利语、爱尔兰语、意大利语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语、阿拉伯语、加泰罗尼亚语、中文、加利西亚语、印地语、日语、韩语、挪威语、俄语、土耳其语和乌克兰语。
- 许可证:Apache许可证2.0。
✨ 主要特性
模型详情
EuroLLM项目旨在创建一套能够理解和生成所有欧盟语言以及一些其他相关语言文本的大语言模型。
EuroLLM-9B是一个拥有90亿参数的模型,在4万亿个跨多种语言和多个数据源(网络数据、平行数据(英语 - 其他语言和其他语言 - 英语)以及高质量数据集)的标记上进行训练。
EuroLLM-9B-Instruct在EuroBlocks上进行了进一步的指令微调,EuroBlocks是一个专注于通用指令遵循和机器翻译的指令微调数据集。
模型描述
EuroLLM使用标准的密集Transformer架构:
- 使用8个键值头的分组查询注意力(GQA),因为它在推理时能提高速度,同时保持下游任务的性能。
- 进行预层归一化,以提高训练稳定性,并使用更快的RMSNorm。
- 使用SwiGLU激活函数,因为它在下游任务中表现良好。
- 在每一层使用旋转位置嵌入(RoPE),因为它在允许扩展上下文长度的同时能带来良好的性能。
在预训练阶段,使用Marenostrum 5超级计算机的400个Nvidia H100 GPU,以恒定的2800个序列的批次大小(约1200万个标记)训练模型,使用Adam优化器和BF16精度。
以下是模型超参数的总结:
属性 |
详情 |
序列长度 |
4,096 |
层数 |
42 |
嵌入大小 |
4,096 |
FFN隐藏大小 |
12,288 |
头数 |
32 |
KV头数(GQA) |
8 |
激活函数 |
SwiGLU |
位置编码 |
RoPE (\Theta=10,000) |
层归一化 |
RMSNorm |
绑定嵌入 |
否 |
嵌入参数 |
5.24亿 |
LM头参数 |
5.24亿 |
非嵌入参数 |
81.05亿 |
总参数 |
91.54亿 |
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "utter-project/EuroLLM-9B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": "You are EuroLLM --- an AI assistant specialized in European languages that provides safe, educational and helpful answers.",
},
{
"role": "user", "content": "What is the capital of Portugal? How would you describe it?"
},
]
inputs = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(inputs, max_new_tokens=1024)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
📚 详细文档
欧盟语言结果
表1:开放权重的大语言模型在多语言基准测试中的比较。博尔达计数对应于模型的平均排名(见 (Colombo et al., 2022))。对于Arc-challenge、Hellaswag和MMLU,我们使用Okapi数据集(Lai et al., 2023),其中包含11种语言。对于MMLU-Pro和MUSR,我们使用Tower将英语版本翻译成6种欧盟语言(Alves et al., 2024)。
* 由于没有预训练模型的公开版本,我们使用后训练版本进行评估。
表1的结果显示,与其他欧洲开发的模型相比,EuroLLM-9B在多语言任务上表现更优(博尔达计数为1.0),并且与非欧洲模型具有很强的竞争力,取得了与Gemma-2-9B相当的结果,在大多数基准测试中优于其他模型。
英语结果

表2:开放权重的大语言模型在英语通用基准测试中的比较。
* 由于没有预训练模型的公开版本,我们使用后训练版本进行评估。
表2的结果表明,EuroLLM在英语任务上表现出色,超过了大多数欧洲开发的模型,与Mistral-7B的性能相当(获得相同的博尔达计数)。
🔧 技术细节
偏差、风险和局限性
EuroLLM-9B尚未根据人类偏好进行对齐,因此模型可能会生成有问题的输出(例如,幻觉、有害内容或错误陈述)。
📄 许可证
本模型使用Apache许可证2.0。