🚀 EMMA - 500: 大規模言語モデルの多言語適応性向上
EMMA - 500 は、最先端の多言語言語モデルです。Llama 2 7B アーキテクチャ上での継続的な事前学習を通じて、特に低資源言語における言語表現を改善するように設計されています。500 を超える言語と 740 億のトークンを含む MaLA コーパス を活用し、常識推論、機械翻訳、自由形式の生成、テキスト分類などの多言語タスクで優れた性能を発揮します。
EMMA - 500 は、多様な多言語環境で他の Llama 2 ベースのモデルを上回り、特殊なタスクでも堅牢性を維持します。
🚀 クイックスタート
EMMA - 500 の概要や特徴を理解することで、多言語タスクでの活用が可能になります。以下では、モデルの詳細、使用方法、性能評価などを説明します。
✨ 主な機能
- 高度な多言語表現:Llama 2 7B アーキテクチャをベースに、継続的な事前学習により低資源言語を含む 546 言語をサポートし、多言語タスクで優れた性能を発揮します。
- 多様なタスク対応:常識推論、機械翻訳、自由形式の生成、テキスト分類、自然言語推論、コード生成など、幅広いタスクに対応しています。
- 高性能:様々なベンチマークで評価され、他の Llama 2 ベースのモデルを上回る性能を示しています。
📦 インストール
このドキュメントでは直接的なインストール手順は記載されていませんが、使用には transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "MaLA-LM/emma-500-llama2-7b"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
input_text = "Once upon a time"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
📚 ドキュメント
モデルの詳細
属性 |
詳情 |
モデルタイプ |
Llama 2 7B ベースで、継続的な事前学習による言語適応性を強化したアーキテクチャ |
サポート言語 |
546 言語(それぞれ 10 万トークン以上の大量の学習データあり) |
データミックス |
コード、書籍、命令データなど様々なドメインのテキストの多様な混合 |
主要タスク |
常識推論、機械翻訳、テキスト分類、自然言語推論、コード生成、自由形式の生成 |
データアクセス
モデル性能
EMMA - 500 は複数のベンチマークとタスクで評価され、以下の結果を示しました。
- 内在的評価で最低の負の対数尤度:モデルの予測精度が高いことを示しています。
- 常識推論、機械翻訳、自由形式の生成で大幅な改善:多言語タスクでの性能が向上しています。
- テキスト分類と自然言語推論で他の Llama 2 ベースのモデルを上回る:特定のタスクでも高い性能を維持しています。
- コード生成と機械読解(MRC)での性能向上:幅広いタスクでの能力が強化されています。
ただし、低資源言語では Self - BLEU スコアが高くなる傾向があり、出力の多様性が低下することが課題として残っています。
📄 ライセンス
このモデルは Llama 2 のライセンスに基づいています。
引用
@article{ji2024emma500enhancingmassivelymultilingual,
title={{EMMA}-500: Enhancing Massively Multilingual Adaptation of Large Language Models},
author={Shaoxiong Ji and Zihao Li and Indraneil Paul and Jaakko Paavola and Peiqin Lin and Pinzhen Chen and Dayyán O'Brien and Hengyu Luo and Hinrich Schütze and Jörg Tiedemann and Barry Haddow},
year={2024},
journal={arXiv preprint 2409.17892},
url={https://arxiv.org/abs/2409.17892},
}
謝辞
MaLA コーパスで使用される多様なデータの収集、クリーニング、検証に協力してくれた言語コミュニティと貢献者の皆様に感謝いたします。皆様の努力は、AI 研究における言語の多様性を支える上で非常に大きな価値があります。
この研究は [Helsinki - NLP](https://huggingface.co/Helsinki - NLP) の研究者たちが、TU Darmstadt、エジンバラ大学、LMU ミュンヘンのパートナーと協力して行われました。[HPLT](https://hplt - project.org) と [UTTER](https://he - utter.eu) による資金提供を受けています。