EuroLLM-9B開源多語言大模型 - 支持35種語言，專注歐盟語言文本生成

首頁

Eurollm 9B

由utter-project開發

EuroLLM-9B是一個90億參數的多語言大語言模型，支持35種語言，專注於歐盟語言及相關語言的文本理解和生成。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #歐盟多語言 #GQA加速推理 #4萬億token訓練

下載量 1,676

發布時間 : 11/22/2024

模型概述

EuroLLM-9B是由歐盟資助的多語言Transformer大語言模型，旨在理解和生成所有歐盟語言及部分其他相關語言的文本。

模型特點

多語言支持

支持35種語言，特別關注歐盟語言，具有廣泛的語言覆蓋能力。

高效架構

採用分組查詢注意力(GQA)和預層歸一化等技術，在保持性能的同時提高推理速度。

大規模訓練

訓練數據覆蓋4萬億token，包含多種語言和數據來源，確保模型的多語言能力。

歐盟資助項目

作為歐盟資助項目的一部分，特別關注歐洲語言和文化需求。

模型能力

多語言文本生成

機器翻譯

指令跟隨

多語言問答

使用案例

多語言應用

多語言聊天機器人

構建支持多種歐盟語言的聊天機器人

在多語言基準測試中表現優異

跨語言翻譯

實現歐盟語言之間的互譯

在機器翻譯任務中表現良好

教育

語言學習助手

幫助學習歐盟各種語言

🚀 EuroLLM - 9B模型卡片

EuroLLM - 9B是一個強大的多語言大語言模型，旨在理解和生成多種歐洲語言及其他相關語言的文本。該模型由多個知名機構聯合開發，獲得歐盟資助，具有廣泛的應用前景。你還可以查看其指令微調版本：EuroLLM - 9B - Instruct。

🚀 快速開始

運行模型

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "utter-project/EuroLLM-9B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

text = "English: My name is EuroLLM. Portuguese:"

inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

✨ 主要特性

多語言支持：支持保加利亞語、克羅地亞語、捷克語、丹麥語、荷蘭語、英語、愛沙尼亞語、芬蘭語、法語、德語、希臘語、匈牙利語、愛爾蘭語、意大利語、拉脫維亞語、立陶宛語、馬耳他語、波蘭語、葡萄牙語、羅馬尼亞語、斯洛伐克語、斯洛文尼亞語、西班牙語、瑞典語、阿拉伯語、加泰羅尼亞語、中文、加利西亞語、印地語、日語、韓語、挪威語、俄語、土耳其語和烏克蘭語等多種語言。
先進架構：採用標準的密集Transformer架構，使用分組查詢注意力（GQA）、預層歸一化、RMSNorm、SwiGLU激活函數和旋轉位置嵌入（RoPE）等技術，提高了推理速度和下游任務性能。

📦 安裝指南

文檔未提及具體安裝步驟，可參考transformers庫的官方安裝文檔進行安裝。

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "utter-project/EuroLLM-9B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

text = "English: My name is EuroLLM. Portuguese:"

inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

📚 詳細文檔

模型詳情

EuroLLM項目旨在創建一套能夠理解和生成所有歐盟語言以及一些其他相關語言文本的大語言模型。EuroLLM - 9B是一個具有90億參數的模型，在4萬億個標記上進行訓練，這些標記分佈在考慮的語言和多個數據源中，包括網絡數據、平行數據（英語 - 其他語言和其他語言 - 英語）和高質量數據集。EuroLLM - 9B - Instruct在EuroBlocks上進行了進一步的指令微調，EuroBlocks是一個專注於通用指令遵循和機器翻譯的指令微調數據集。

模型描述

EuroLLM使用標準的密集Transformer架構：

分組查詢注意力（GQA）：使用8個鍵值頭，在保持下游性能的同時提高了推理速度。
預層歸一化：採用RMSNorm，提高了訓練穩定性並加快了計算速度。
SwiGLU激活函數：在下游任務中取得了良好的效果。
旋轉位置嵌入（RoPE）：在每一層都使用，允許擴展上下文長度並取得了良好的性能。

訓練信息

在預訓練過程中，使用了Marenostrum 5超級計算機的400個Nvidia H100 GPU，以2800個序列的恆定批量大小（約1200萬個標記）訓練模型，使用Adam優化器和BF16精度。以下是模型超參數的總結：

屬性	詳情
序列長度	4,096
層數	42
嵌入大小	4,096
FFN隱藏大小	12,288
頭數	32
KV頭數（GQA）	8
激活函數	SwiGLU
位置編碼	RoPE (\Theta = 10,000)
層歸一化	RMSNorm
綁定嵌入	否
嵌入參數	0.524B
LM頭參數	0.524B
非嵌入參數	8.105B
總參數	9.154B

結果

歐盟語言

image/png 表1：開放權重的大語言模型在多語言基準測試中的比較。博爾達計數對應於模型的平均排名（見 (Colombo et al., 2022)）。對於Arc - challenge、Hellaswag和MMLU，我們使用Okapi數據集（Lai et al., 2023），其中包括11種語言。對於MMLU - Pro和MUSR，我們使用Tower（Alves et al., 2024）將英語版本翻譯成6種歐盟語言。
* 由於沒有預訓練模型的公開版本，我們使用後訓練版本進行評估。