🚀 EuroLLM-9B-Instruct模型卡片
EuroLLM-9B-Instruct是一款強大的多語言大語言模型,它能夠理解和生成多種語言的文本,在多語言任務中表現出色,為跨語言交流和處理提供了有力支持。
🚀 快速開始
這是EuroLLM-9B-Instruct的模型卡片。你也可以查看預訓練版本:EuroLLM-9B。
- 開發者:Unbabel、里斯本高等理工學院、電信研究所、愛丁堡大學、Aveni、巴黎薩克雷大學、阿姆斯特丹大學、Naver Labs、索邦大學。
- 資助方:歐盟。
- 模型類型:一個擁有90億參數的多語言Transformer大語言模型。
- 支持語言(NLP):保加利亞語、克羅地亞語、捷克語、丹麥語、荷蘭語、英語、愛沙尼亞語、芬蘭語、法語、德語、希臘語、匈牙利語、愛爾蘭語、意大利語、拉脫維亞語、立陶宛語、馬耳他語、波蘭語、葡萄牙語、羅馬尼亞語、斯洛伐克語、斯洛文尼亞語、西班牙語、瑞典語、阿拉伯語、加泰羅尼亞語、中文、加利西亞語、印地語、日語、韓語、挪威語、俄語、土耳其語和烏克蘭語。
- 許可證:Apache許可證2.0。
✨ 主要特性
模型詳情
EuroLLM項目旨在創建一套能夠理解和生成所有歐盟語言以及一些其他相關語言文本的大語言模型。
EuroLLM-9B是一個擁有90億參數的模型,在4萬億個跨多種語言和多個數據源(網絡數據、平行數據(英語 - 其他語言和其他語言 - 英語)以及高質量數據集)的標記上進行訓練。
EuroLLM-9B-Instruct在EuroBlocks上進行了進一步的指令微調,EuroBlocks是一個專注於通用指令遵循和機器翻譯的指令微調數據集。
模型描述
EuroLLM使用標準的密集Transformer架構:
- 使用8個鍵值頭的分組查詢注意力(GQA),因為它在推理時能提高速度,同時保持下游任務的性能。
- 進行預層歸一化,以提高訓練穩定性,並使用更快的RMSNorm。
- 使用SwiGLU激活函數,因為它在下游任務中表現良好。
- 在每一層使用旋轉位置嵌入(RoPE),因為它在允許擴展上下文長度的同時能帶來良好的性能。
在預訓練階段,使用Marenostrum 5超級計算機的400個Nvidia H100 GPU,以恆定的2800個序列的批次大小(約1200萬個標記)訓練模型,使用Adam優化器和BF16精度。
以下是模型超參數的總結:
屬性 |
詳情 |
序列長度 |
4,096 |
層數 |
42 |
嵌入大小 |
4,096 |
FFN隱藏大小 |
12,288 |
頭數 |
32 |
KV頭數(GQA) |
8 |
激活函數 |
SwiGLU |
位置編碼 |
RoPE (\Theta=10,000) |
層歸一化 |
RMSNorm |
綁定嵌入 |
否 |
嵌入參數 |
5.24億 |
LM頭參數 |
5.24億 |
非嵌入參數 |
81.05億 |
總參數 |
91.54億 |
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "utter-project/EuroLLM-9B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": "You are EuroLLM --- an AI assistant specialized in European languages that provides safe, educational and helpful answers.",
},
{
"role": "user", "content": "What is the capital of Portugal? How would you describe it?"
},
]
inputs = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(inputs, max_new_tokens=1024)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
📚 詳細文檔
歐盟語言結果
表1:開放權重的大語言模型在多語言基準測試中的比較。博爾達計數對應於模型的平均排名(見 (Colombo et al., 2022))。對於Arc-challenge、Hellaswag和MMLU,我們使用Okapi數據集(Lai et al., 2023),其中包含11種語言。對於MMLU-Pro和MUSR,我們使用Tower將英語版本翻譯成6種歐盟語言(Alves et al., 2024)。
* 由於沒有預訓練模型的公開版本,我們使用後訓練版本進行評估。
表1的結果顯示,與其他歐洲開發的模型相比,EuroLLM-9B在多語言任務上表現更優(博爾達計數為1.0),並且與非歐洲模型具有很強的競爭力,取得了與Gemma-2-9B相當的結果,在大多數基準測試中優於其他模型。
英語結果

表2:開放權重的大語言模型在英語通用基準測試中的比較。
* 由於沒有預訓練模型的公開版本,我們使用後訓練版本進行評估。
表2的結果表明,EuroLLM在英語任務上表現出色,超過了大多數歐洲開發的模型,與Mistral-7B的性能相當(獲得相同的博爾達計數)。
🔧 技術細節
偏差、風險和侷限性
EuroLLM-9B尚未根據人類偏好進行對齊,因此模型可能會生成有問題的輸出(例如,幻覺、有害內容或錯誤陳述)。
📄 許可證
本模型使用Apache許可證2.0。