🚀 EuroLLM-9B モデルカード
これは EuroLLM-9B のモデルカードです。命令微調整版も確認できます: EuroLLM-9B-Instruct。
- 開発元: Unbabel、Instituto Superior Técnico、Instituto de Telecomunicações、University of Edinburgh、Aveni、University of Paris-Saclay、University of Amsterdam、Naver Labs、Sorbonne Université。
- 資金提供元: 欧州連合。
- モデルタイプ: 90億パラメータの多言語トランスフォーマー大規模言語モデル(LLM)。
- 言語 (NLP): ブルガリア語、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エストニア語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、アイルランド語、イタリア語、ラトビア語、リトアニア語、マルタ語、ポーランド語、ポルトガル語、ルーマニア語、スロバキア語、スロベニア語、スペイン語、スウェーデン語、アラビア語、カタルーニャ語、中国語、ガリシア語、ヒンディー語、日本語、韓国語、ノルウェー語、ロシア語、トルコ語、ウクライナ語。
- ライセンス: Apache License 2.0。
📚 ドキュメント
EuroLLM プロジェクトの目標は、すべての欧州連合の言語やいくつかの関連言語でのテキスト理解と生成が可能な大規模言語モデルのセットを作成することです。
EuroLLM-9B は90億パラメータのモデルで、考慮される言語といくつかのデータソース(Webデータ、並列データ(英語 - 他言語および他言語 - 英語)、高品質データセット)にわたって分割された4兆トークンで学習されています。
EuroLLM-9B-Instruct は、一般的な命令追従と機械翻訳に焦点を当てた命令微調整データセットである EuroBlocks でさらに命令微調整されています。
モデルの説明
EuroLLM は標準的な密なトランスフォーマーアーキテクチャを使用しています:
- 推論時の速度を向上させながら下流のパフォーマンスを維持するため、8つのキー - バリューヘッドを持つグループ化クエリアテンション(GQA)を使用しています。
- 学習の安定性を向上させるためにレイヤー前正規化を行い、より高速な RMSNorm を使用しています。
- 下流タスクで良い結果をもたらすことが示されているため、SwiGLU 活性化関数を使用しています。
- コンテキスト長の拡張を可能にしながら良いパフォーマンスをもたらすことが示されているため、すべてのレイヤーで回転位置埋め込み(RoPE)を使用しています。
事前学習には、Marenostrum 5 スーパーコンピュータの400台の Nvidia H100 GPU を使用し、一定のバッチサイズ2,800シーケンス(約1200万トークンに相当)で、Adam オプティマイザと BF16 精度を使用してモデルを学習させました。
以下はモデルのハイパーパラメータの概要です:
プロパティ |
詳細 |
シーケンス長 |
4,096 |
レイヤー数 |
42 |
埋め込みサイズ |
4,096 |
FFN隠れ層サイズ |
12,288 |
ヘッド数 |
32 |
KVヘッド数 (GQA) |
8 |
活性化関数 |
SwiGLU |
位置符号化 |
RoPE (\Theta=10,000) |
レイヤー正規化 |
RMSNorm |
共有埋め込み |
いいえ |
埋め込みパラメータ |
0.524B |
LMヘッドパラメータ |
0.524B |
非埋め込みパラメータ |
8.105B |
総パラメータ数 |
9.154B |
💻 使用例
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "utter-project/EuroLLM-9B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
text = "English: My name is EuroLLM. Portuguese:"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
📊 結果
欧州連合の言語
表1: 多言語ベンチマークにおけるオープンウェイトの大規模言語モデルの比較。ボルダカウントはモデルの平均ランキングに対応しています(Colombo et al., 2022 を参照)。Arc-challenge、Hellaswag、MMLU には、11言語を含む Okapi データセット(Lai et al., 2023)を使用しています。MMLU-Pro と MUSR には、Tower(Alves et al., 2024)を使用して英語版を6つの欧州連合言語に翻訳しています。
* 事前学習モデルの公開バージョンがないため、事後学習バージョンを使用して評価しました。
表1の結果は、EuroLLM-9B が多言語タスクで他の欧州開発のモデルと比較して優れたパフォーマンスを示していること(ボルダカウントが1.0で示される)、および非欧州モデルとも強い競争力があり、Gemma-2-9B と同等の結果を達成し、ほとんどのベンチマークで他のモデルを上回っていることを強調しています。
英語

表2: 英語の一般的なベンチマークにおけるオープンウェイトの大規模言語モデルの比較。
* 事前学習モデルの公開バージョンがないため、事後学習バージョンを使用して評価しました。
表2の結果は、EuroLLM が英語タスクで強いパフォーマンスを示し、ほとんどの欧州開発のモデルを上回り、Mistral-7B のパフォーマンスと匹敵する(同じボルダカウントを獲得している)ことを示しています。
⚠️ バイアス、リスク、制限事項
EuroLLM-9B は人間の嗜好にアラインメントされていないため、問題のある出力(例えば、幻覚、有害な内容、または誤った陳述)を生成する可能性があります。
📄 ライセンス
このモデルは Apache License 2.0 の下で提供されています。