🚀 LOLA — オープンソースの超大規模多言語大規模言語モデル
LOLAは、160以上の言語で訓練された超大規模多言語大規模言語モデルです。スパースなエキスパート混合Transformerアーキテクチャを使用しており、言語の多様性を活かしつつ、効率性を維持し、多言語化に伴う一般的な問題を回避することを目指しています。評価結果の分析から、自然言語生成と理解タスクにおいて競争力のある性能を示しています。また、学習されたエキスパートルーティングメカニズムが、暗黙的な系統発生的言語パターンを利用して、多言語化の問題を軽減する可能性を示しています。訓練プロセスの詳細、データセットの分析、およびモデルの強みと限界のバランスの取れた検討を提供しています。オープンソースモデルとして、再現性を促進し、将来の研究の堅固な基盤となります。これらの知見は、言語間で強力で拡張性のある性能を持つ計算効率の良い多言語モデルの開発を可能にします。
論文: https://arxiv.org/abs/2409.11272
🚀 クイックスタート
この事前学習済み(因果言語モデリング)モデルは、テキスト生成にのみ使用でき、下流タスクでのさらなる微調整が必要です。
使い方
このモデルは、テキスト生成用のパイプラインを使用して直接利用できます。
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model="dice-research/lola_v1", trust_remote_code=True)
>>> generator("The quick brown fox", max_length=13)
[{'generated_text': 'The quick brown fox jumps over the lazy dog.'}]
トップkサンプリングを使用するには、do_sample
をTrue
に設定してください。
注意: モデルで使用されるトークナイザーは、mGPT (https://github.com/ai-forever/mgpt) から取得されています。
✨ 主な機能
LOLAは、160以上の言語で訓練された超大規模多言語大規模言語モデルです。スパースなエキスパート混合Transformerアーキテクチャを採用し、言語の多様性を活かしながら効率的に動作します。自然言語生成と理解タスクで競争力のある性能を発揮し、学習されたエキスパートルーティングメカニズムが多言語化の問題を軽減する可能性を秘めています。
📦 インストール
このモデルはtransformers
ライブラリを通じて利用できます。transformers
をインストールすることで使用可能です。
💻 使用例
基本的な使用法
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model="dice-research/lola_v1", trust_remote_code=True)
>>> generator("The quick brown fox", max_length=13)
[{'generated_text': 'The quick brown fox jumps over the lazy dog.'}]
高度な使用法
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model="dice-research/lola_v1", trust_remote_code=True)
>>> generator("The quick brown fox", max_length=13, do_sample=True)
📚 ドキュメント
モデルの説明
- 開発元: DICE Research Group (https://dice-research.org/) @ Paderborn University (https://www.uni-paderborn.de/)
- モデルタイプ: 交互のスパースエキスパート混合層を持つGPT2スタイル(デコーダーのみ)
- エキスパート数: 16
- モデルサイズ: 13億(アクティブ*) / 74億(合計)
- 言語: 160以上
- ライセンス: CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/)
- リポジトリ: https://github.com/dice-group/LOLA
* モデルがトークンごとに利用するパラメータ数 (参照: Fedus et al, 2022 ; Du et al, 2022 )。この区別は、エキスパート混合モデルの効率と性能を理解するために重要です。
訓練の詳細
訓練フレームワーク
- DeepSpeed Megatron (https://github.com/microsoft/Megatron-DeepSpeed)
- アーキテクチャタイプ: エキスパート混合(MoE)を持つTransformer(デコーダーのみ)
- エキスパート数: 16
- モデルサイズ: 13億(密) / 74億(疎)
事前学習データセット
- CulturaX (https://huggingface.co/datasets/uonlp/CulturaX)
- 総トークン数: 63兆
- 総言語数: 167
LOLA v1の訓練
- コンピューティングクラスタ: Noctua2 (https://pc2.uni-paderborn.de/hpc-services/available-systems/noctua2)
- GPU数: 96台のNvidia A100 (40GB)
- 訓練ステップ: 296000
- 消費トークン数: 4650億
- 訓練時間: 約19日
🔧 技術詳細
LOLAは、160以上の言語で訓練された超大規模多言語大規模言語モデルです。スパースなエキスパート混合Transformerアーキテクチャを使用しており、言語の多様性を活かしつつ、効率性を維持し、多言語化に伴う一般的な問題を回避することを目指しています。評価結果の分析から、自然言語生成と理解タスクにおいて競争力のある性能を示しています。また、学習されたエキスパートルーティングメカニズムが、暗黙的な系統発生的言語パターンを利用して、多言語化の問題を軽減する可能性を示しています。
📄 ライセンス
このモデルはCC BY 4.0ライセンスの下で公開されています。詳細は https://creativecommons.org/licenses/by/4.0/ を参照してください。
引用
もしあなたの研究でこのモデルを使用する場合は、以下のように引用してください。
@inproceedings{srivastava-etal-2025-lola,
author = {Nikit Srivastava and Denis Kuchelev and Tatiana Moteu Ngoli and Kshitij Shetty and Michael Röder and Hamada Zahera and Diego Moussallem and Axel-Cyrille Ngonga Ngomo},
title = {{LOLA} -- An Open-Source Massively Multilingual Large Language Model},
booktitle = {Proceedings of the 31st International Conference on Computational Linguistics},
editor = {Owen Rambow and Leo Wanner and Marianna Apidianaki and Hend Al-Khalifa and Barbara Di Eugenio and Steven Schockaert},
month = jan,
year = {2025},
address = {Abu Dhabi, UAE},
publisher = {Association for Computational Linguistics},
pages = {6420--6446},
url = {https://aclanthology.org/2025.coling-main.428/},
note = {arXiv:2409.11272 [cs.CL]},
}