EuroLLM-9B-Instruct开源多语言大模型 - 支持欧盟语言通用指令与机器翻译

首页

Eurollm 9B Instruct

由 utter-project 开发

EuroLLM-9B-Instruct是一个90亿参数的多语言大语言模型，专注于欧盟语言及其他相关语言，经过指令微调以优化通用指令跟随和机器翻译任务。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #欧盟多语言 #指令微调 #90亿参数

下载量 7,899

发布时间 : 11/22/2024

模型简介

EuroLLM项目旨在创建一套能够理解和生成所有欧盟语言及其他相关语言文本的大语言模型。EuroLLM-9B-Instruct在EuroLLM-9B的基础上进行了指令微调，专注于通用指令跟随和机器翻译任务。

模型特点

多语言支持

支持35种语言，涵盖所有欧盟官方语言及其他相关语言。

高效推理

采用分组查询注意力（GQA）和预层归一化（pre-layer norm），提高推理速度同时保持性能。

指令微调

在EuroBlocks数据集上进行指令微调，优化通用指令跟随和机器翻译任务。

高性能

在多语言基准测试中表现优异，优于其他欧洲开发模型，与非欧洲模型性能相当。

模型能力

文本生成

机器翻译

指令跟随

多语言理解

使用案例

教育

语言学习助手

帮助学生学习和练习多种欧盟语言。

提供准确的语言解释和翻译。

商业

多语言客服

为跨国企业提供多语言客服支持。

能够理解和生成多种语言的客服回复。

翻译

机器翻译

提供高质量的欧盟语言之间的翻译服务。

在机器翻译任务中表现优异。

🚀 EuroLLM-9B-Instruct模型卡片

EuroLLM-9B-Instruct是一款强大的多语言大语言模型，它能够理解和生成多种语言的文本，在多语言任务中表现出色，为跨语言交流和处理提供了有力支持。

🚀 快速开始

这是EuroLLM-9B-Instruct的模型卡片。你也可以查看预训练版本：EuroLLM-9B。

开发者：Unbabel、里斯本高等理工学院、电信研究所、爱丁堡大学、Aveni、巴黎萨克雷大学、阿姆斯特丹大学、Naver Labs、索邦大学。
资助方：欧盟。
模型类型：一个拥有90亿参数的多语言Transformer大语言模型。
支持语言（NLP）：保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、匈牙利语、爱尔兰语、意大利语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语、阿拉伯语、加泰罗尼亚语、中文、加利西亚语、印地语、日语、韩语、挪威语、俄语、土耳其语和乌克兰语。
许可证：Apache许可证2.0。

✨ 主要特性

模型详情

EuroLLM项目旨在创建一套能够理解和生成所有欧盟语言以及一些其他相关语言文本的大语言模型。 EuroLLM-9B是一个拥有90亿参数的模型，在4万亿个跨多种语言和多个数据源（网络数据、平行数据（英语 - 其他语言和其他语言 - 英语）以及高质量数据集）的标记上进行训练。 EuroLLM-9B-Instruct在EuroBlocks上进行了进一步的指令微调，EuroBlocks是一个专注于通用指令遵循和机器翻译的指令微调数据集。

模型描述

EuroLLM使用标准的密集Transformer架构：

使用8个键值头的分组查询注意力（GQA），因为它在推理时能提高速度，同时保持下游任务的性能。
进行预层归一化，以提高训练稳定性，并使用更快的RMSNorm。
使用SwiGLU激活函数，因为它在下游任务中表现良好。
在每一层使用旋转位置嵌入（RoPE），因为它在允许扩展上下文长度的同时能带来良好的性能。

在预训练阶段，使用Marenostrum 5超级计算机的400个Nvidia H100 GPU，以恒定的2800个序列的批次大小（约1200万个标记）训练模型，使用Adam优化器和BF16精度。以下是模型超参数的总结：

属性	详情
序列长度	4,096
层数	42
嵌入大小	4,096
FFN隐藏大小	12,288
头数	32
KV头数（GQA）	8
激活函数	SwiGLU
位置编码	RoPE (\Theta=10,000)
层归一化	RMSNorm
绑定嵌入	否
嵌入参数	5.24亿
LM头参数	5.24亿
非嵌入参数	81.05亿
总参数	91.54亿

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "utter-project/EuroLLM-9B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

messages = [
    {
        "role": "system",
        "content": "You are EuroLLM --- an AI assistant specialized in European languages that provides safe, educational and helpful answers.",
    },
    {
        "role": "user", "content": "What is the capital of Portugal? How would you describe it?"
    },
]

inputs = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(inputs, max_new_tokens=1024)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

📚 详细文档

欧盟语言结果

image/png 表1：开放权重的大语言模型在多语言基准测试中的比较。博尔达计数对应于模型的平均排名（见 (Colombo et al., 2022)）。对于Arc-challenge、Hellaswag和MMLU，我们使用Okapi数据集（Lai et al., 2023），其中包含11种语言。对于MMLU-Pro和MUSR，我们使用Tower将英语版本翻译成6种欧盟语言（Alves et al., 2024）。
* 由于没有预训练模型的公开版本，我们使用后训练版本进行评估。