EuroLLM - 9Bオープンソース多言语大モデル - 35言语に対応、欧州连合言语のテキスト生成に特化

ホーム

Eurollm 9B

utter-projectによって開発

EuroLLM-9Bは90億パラメータの多言語大規模言語モデルで、35言語をサポートし、EU言語および関連言語のテキスト理解と生成に特化しています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #EU多言語対応 #GQA推論高速化 #4兆トークン訓練

ダウンロード数 1,676

リリース時間 : 11/22/2024

モデル概要

EuroLLM-9BはEUが資金提供した多言語Transformer大規模言語モデルで、全てのEU言語および一部の関連言語のテキスト理解と生成を目的としています。

モデル特徴

多言語サポート

35言語をサポートし、特にEU言語に重点を置き、広範な言語カバレッジを有しています。

効率的なアーキテクチャ

グループ化クエリ注意(GQA)や事前レイヤー正規化などの技術を採用し、性能を維持しながら推論速度を向上させています。

大規模訓練

4兆トークンに及ぶ訓練データで、複数言語とデータソースをカバーし、モデルの多言語能力を保証しています。

EU資金提供プロジェクト

EU資金提供プロジェクトの一環として、特にヨーロッパの言語と文化的ニーズに焦点を当てています。

モデル能力

多言語テキスト生成

機械翻訳

命令追従

多言語質問応答

使用事例

多言語アプリケーション

多言語チャットボット

複数のEU言語をサポートするチャットボットを構築

多言語ベンチマークテストで優れたパフォーマンス

クロスランゲージ翻訳

EU言語間の相互翻訳を実現

機械翻訳タスクで良好な結果

教育

言語学習アシスタント

EUの様々な言語学習を支援

🚀 EuroLLM-9B モデルカード

これは EuroLLM-9B のモデルカードです。命令微調整版も確認できます: EuroLLM-9B-Instruct。

開発元: Unbabel、Instituto Superior Técnico、Instituto de Telecomunicações、University of Edinburgh、Aveni、University of Paris-Saclay、University of Amsterdam、Naver Labs、Sorbonne Université。
資金提供元: 欧州連合。
モデルタイプ: 90億パラメータの多言語トランスフォーマー大規模言語モデル（LLM）。
言語 (NLP): ブルガリア語、クロアチア語、チェコ語、デンマーク語、オランダ語、英語、エストニア語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ハンガリー語、アイルランド語、イタリア語、ラトビア語、リトアニア語、マルタ語、ポーランド語、ポルトガル語、ルーマニア語、スロバキア語、スロベニア語、スペイン語、スウェーデン語、アラビア語、カタルーニャ語、中国語、ガリシア語、ヒンディー語、日本語、韓国語、ノルウェー語、ロシア語、トルコ語、ウクライナ語。
ライセンス: Apache License 2.0。

📚 ドキュメント

EuroLLM プロジェクトの目標は、すべての欧州連合の言語やいくつかの関連言語でのテキスト理解と生成が可能な大規模言語モデルのセットを作成することです。 EuroLLM-9B は90億パラメータのモデルで、考慮される言語といくつかのデータソース（Webデータ、並列データ（英語 - 他言語および他言語 - 英語）、高品質データセット）にわたって分割された4兆トークンで学習されています。 EuroLLM-9B-Instruct は、一般的な命令追従と機械翻訳に焦点を当てた命令微調整データセットである EuroBlocks でさらに命令微調整されています。

モデルの説明

EuroLLM は標準的な密なトランスフォーマーアーキテクチャを使用しています:

推論時の速度を向上させながら下流のパフォーマンスを維持するため、8つのキー - バリューヘッドを持つグループ化クエリアテンション（GQA）を使用しています。
学習の安定性を向上させるためにレイヤー前正規化を行い、より高速な RMSNorm を使用しています。
下流タスクで良い結果をもたらすことが示されているため、SwiGLU 活性化関数を使用しています。
コンテキスト長の拡張を可能にしながら良いパフォーマンスをもたらすことが示されているため、すべてのレイヤーで回転位置埋め込み（RoPE）を使用しています。

事前学習には、Marenostrum 5 スーパーコンピュータの400台の Nvidia H100 GPU を使用し、一定のバッチサイズ2,800シーケンス（約1200万トークンに相当）で、Adam オプティマイザと BF16 精度を使用してモデルを学習させました。以下はモデルのハイパーパラメータの概要です:

プロパティ	詳細
シーケンス長	4,096
レイヤー数	42
埋め込みサイズ	4,096
FFN隠れ層サイズ	12,288
ヘッド数	32
KVヘッド数 (GQA)	8
活性化関数	SwiGLU
位置符号化	RoPE (\Theta=10,000)
レイヤー正規化	RMSNorm
共有埋め込み	いいえ
埋め込みパラメータ	0.524B
LMヘッドパラメータ	0.524B
非埋め込みパラメータ	8.105B
総パラメータ数	9.154B

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "utter-project/EuroLLM-9B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

text = "English: My name is EuroLLM. Portuguese:"

inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

📊 結果

欧州連合の言語

image/png 表1: 多言語ベンチマークにおけるオープンウェイトの大規模言語モデルの比較。ボルダカウントはモデルの平均ランキングに対応しています（Colombo et al., 2022 を参照）。Arc-challenge、Hellaswag、MMLU には、11言語を含む Okapi データセット（Lai et al., 2023）を使用しています。MMLU-Pro と MUSR には、Tower（Alves et al., 2024）を使用して英語版を6つの欧州連合言語に翻訳しています。
* 事前学習モデルの公開バージョンがないため、事後学習バージョンを使用して評価しました。

表1の結果は、EuroLLM-9B が多言語タスクで他の欧州開発のモデルと比較して優れたパフォーマンスを示していること（ボルダカウントが1.0で示される）、および非欧州モデルとも強い競争力があり、Gemma-2-9B と同等の結果を達成し、ほとんどのベンチマークで他のモデルを上回っていることを強調しています。