EuroLLM-9B开源多语言大模型 - 支持35种语言，专注欧盟语言文本生成

首页

Eurollm 9B

由 utter-project 开发

EuroLLM-9B是一个90亿参数的多语言大语言模型，支持35种语言，专注于欧盟语言及相关语言的文本理解和生成。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #欧盟多语言 #GQA加速推理 #4万亿token训练

下载量 1,676

发布时间 : 11/22/2024

模型简介

EuroLLM-9B是由欧盟资助的多语言Transformer大语言模型，旨在理解和生成所有欧盟语言及部分其他相关语言的文本。

模型特点

多语言支持

支持35种语言，特别关注欧盟语言，具有广泛的语言覆盖能力。

高效架构

采用分组查询注意力(GQA)和预层归一化等技术，在保持性能的同时提高推理速度。

大规模训练

训练数据覆盖4万亿token，包含多种语言和数据来源，确保模型的多语言能力。

欧盟资助项目

作为欧盟资助项目的一部分，特别关注欧洲语言和文化需求。

模型能力

多语言文本生成

机器翻译

指令跟随

多语言问答

使用案例

多语言应用

多语言聊天机器人

构建支持多种欧盟语言的聊天机器人

在多语言基准测试中表现优异

跨语言翻译

实现欧盟语言之间的互译

在机器翻译任务中表现良好

教育

语言学习助手

帮助学习欧盟各种语言

🚀 EuroLLM - 9B模型卡片

EuroLLM - 9B是一个强大的多语言大语言模型，旨在理解和生成多种欧洲语言及其他相关语言的文本。该模型由多个知名机构联合开发，获得欧盟资助，具有广泛的应用前景。你还可以查看其指令微调版本：EuroLLM - 9B - Instruct。

🚀 快速开始

运行模型

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "utter-project/EuroLLM-9B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

text = "English: My name is EuroLLM. Portuguese:"

inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

✨ 主要特性

多语言支持：支持保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、匈牙利语、爱尔兰语、意大利语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语、阿拉伯语、加泰罗尼亚语、中文、加利西亚语、印地语、日语、韩语、挪威语、俄语、土耳其语和乌克兰语等多种语言。
先进架构：采用标准的密集Transformer架构，使用分组查询注意力（GQA）、预层归一化、RMSNorm、SwiGLU激活函数和旋转位置嵌入（RoPE）等技术，提高了推理速度和下游任务性能。

📦 安装指南

文档未提及具体安装步骤，可参考transformers库的官方安装文档进行安装。

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "utter-project/EuroLLM-9B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

text = "English: My name is EuroLLM. Portuguese:"

inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

📚 详细文档

模型详情

EuroLLM项目旨在创建一套能够理解和生成所有欧盟语言以及一些其他相关语言文本的大语言模型。EuroLLM - 9B是一个具有90亿参数的模型，在4万亿个标记上进行训练，这些标记分布在考虑的语言和多个数据源中，包括网络数据、平行数据（英语 - 其他语言和其他语言 - 英语）和高质量数据集。EuroLLM - 9B - Instruct在EuroBlocks上进行了进一步的指令微调，EuroBlocks是一个专注于通用指令遵循和机器翻译的指令微调数据集。

模型描述

EuroLLM使用标准的密集Transformer架构：

分组查询注意力（GQA）：使用8个键值头，在保持下游性能的同时提高了推理速度。
预层归一化：采用RMSNorm，提高了训练稳定性并加快了计算速度。
SwiGLU激活函数：在下游任务中取得了良好的效果。
旋转位置嵌入（RoPE）：在每一层都使用，允许扩展上下文长度并取得了良好的性能。

训练信息

在预训练过程中，使用了Marenostrum 5超级计算机的400个Nvidia H100 GPU，以2800个序列的恒定批量大小（约1200万个标记）训练模型，使用Adam优化器和BF16精度。以下是模型超参数的总结：

属性	详情
序列长度	4,096
层数	42
嵌入大小	4,096
FFN隐藏大小	12,288
头数	32
KV头数（GQA）	8
激活函数	SwiGLU
位置编码	RoPE (\Theta = 10,000)
层归一化	RMSNorm
绑定嵌入	否
嵌入参数	0.524B
LM头参数	0.524B
非嵌入参数	8.105B
总参数	9.154B

结果

欧盟语言

image/png 表1：开放权重的大语言模型在多语言基准测试中的比较。博尔达计数对应于模型的平均排名（见 (Colombo et al., 2022)）。对于Arc - challenge、Hellaswag和MMLU，我们使用Okapi数据集（Lai et al., 2023），其中包括11种语言。对于MMLU - Pro和MUSR，我们使用Tower（Alves et al., 2024）将英语版本翻译成6种欧盟语言。
* 由于没有预训练模型的公开版本，我们使用后训练版本进行评估。