lola_v1オープンソース多言語大規模モデル - 160種以上の言語をサポートする自然言語生成と理解

ホーム

Lola V1

dice-researchによって開発

LOLAはスパース混合エキスパート(Mixture-of-Experts)Transformerアーキテクチャに基づき、160以上の言語をサポートする超大规模多言語大規模モデルで、自然言語生成と理解タスクにおいて競争力があります。

大規模言語モデル

Transformers

その他#超大规模多言語 #混合エキスパートアーキテクチャ #160+言語サポート

ダウンロード数 867

リリース時間 : 4/2/2024

モデル概要

LOLAはオープンソースの多言語大規模モデルで、GPT2スタイルの純粋デコーダーアーキテクチャを採用し、スパース混合エキスパート技術と組み合わせ、160以上の言語のテキスト生成タスクをサポートします。

モデル特徴

多言語サポート

160以上の言語をサポートし、多言語自然言語処理タスクで優れた性能を発揮します

混合エキスパートアーキテクチャ

16のエキスパートからなるスパース混合エキスパート(MoE)アーキテクチャを採用し、効率を維持しながらモデル性能を向上させます

オープンソースで再現可能

完全にオープンソース化されており、研究の再現性を促進し、将来の研究の基礎を築きます

計算効率

エキスパートルーティングメカニズムにより計算リソースの使用を最適化し、各トークンで一部のパラメータのみを活性化します

モデル能力

多言語テキスト生成

因果言語モデリング

自然言語理解

使用事例

テキスト生成

多言語テキスト補完

与えられたテキストの断片から一貫性のある続きを生成します

例：入力'敏捷な茶色の狐'、出力'敏捷な茶色の狐は怠け者の犬の上を飛び越えた。'

言語研究

クロスランゲージパターン分析

異なる言語間の暗黙的な言語系統パターンを研究します

モデルはエキスパートルーティングメカニズムがどのように暗黙的な言語系統パターンを利用するかを明らかにします

🚀 LOLA — オープンソースの超大規模多言語大規模言語モデル

LOLAは、160以上の言語で訓練された超大規模多言語大規模言語モデルです。スパースなエキスパート混合Transformerアーキテクチャを使用しており、言語の多様性を活かしつつ、効率性を維持し、多言語化に伴う一般的な問題を回避することを目指しています。評価結果の分析から、自然言語生成と理解タスクにおいて競争力のある性能を示しています。また、学習されたエキスパートルーティングメカニズムが、暗黙的な系統発生的言語パターンを利用して、多言語化の問題を軽減する可能性を示しています。訓練プロセスの詳細、データセットの分析、およびモデルの強みと限界のバランスの取れた検討を提供しています。オープンソースモデルとして、再現性を促進し、将来の研究の堅固な基盤となります。これらの知見は、言語間で強力で拡張性のある性能を持つ計算効率の良い多言語モデルの開発を可能にします。

論文: https://arxiv.org/abs/2409.11272

🚀 クイックスタート

この事前学習済み（因果言語モデリング）モデルは、テキスト生成にのみ使用でき、下流タスクでのさらなる微調整が必要です。

使い方

このモデルは、テキスト生成用のパイプラインを使用して直接利用できます。

>>> from transformers import pipeline

>>> generator = pipeline('text-generation', model="dice-research/lola_v1", trust_remote_code=True)
>>> generator("The quick brown fox", max_length=13)
[{'generated_text': 'The quick brown fox jumps over the lazy dog.'}]

トップkサンプリングを使用するには、do_sampleをTrueに設定してください。

注意: モデルで使用されるトークナイザーは、mGPT (https://github.com/ai-forever/mgpt) から取得されています。

✨ 主な機能

LOLAは、160以上の言語で訓練された超大規模多言語大規模言語モデルです。スパースなエキスパート混合Transformerアーキテクチャを採用し、言語の多様性を活かしながら効率的に動作します。自然言語生成と理解タスクで競争力のある性能を発揮し、学習されたエキスパートルーティングメカニズムが多言語化の問題を軽減する可能性を秘めています。

📦 インストール

このモデルはtransformersライブラリを通じて利用できます。transformersをインストールすることで使用可能です。

💻 使用例

基本的な使用法

>>> from transformers import pipeline

>>> generator = pipeline('text-generation', model="dice-research/lola_v1", trust_remote_code=True)
>>> generator("The quick brown fox", max_length=13)
[{'generated_text': 'The quick brown fox jumps over the lazy dog.'}]

高度な使用法

# トップkサンプリングを使用する例
>>> from transformers import pipeline

>>> generator = pipeline('text-generation', model="dice-research/lola_v1", trust_remote_code=True)
>>> generator("The quick brown fox", max_length=13, do_sample=True)

📚 ドキュメント

モデルの説明

開発元: DICE Research Group (https://dice-research.org/) @ Paderborn University (https://www.uni-paderborn.de/)
モデルタイプ: 交互のスパースエキスパート混合層を持つGPT2スタイル（デコーダーのみ）
エキスパート数: 16
モデルサイズ: 13億（アクティブ*） / 74億（合計）
言語: 160以上
ライセンス: CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/)
リポジトリ: https://github.com/dice-group/LOLA

_{* モデルがトークンごとに利用するパラメータ数 (参照: Fedus et al, 2022 ; Du et al, 2022 )。この区別は、エキスパート混合モデルの効率と性能を理解するために重要です。}

訓練の詳細

訓練フレームワーク

DeepSpeed Megatron (https://github.com/microsoft/Megatron-DeepSpeed)
アーキテクチャタイプ: エキスパート混合（MoE）を持つTransformer（デコーダーのみ）
エキスパート数: 16
モデルサイズ: 13億（密） / 74億（疎）

事前学習データセット

CulturaX (https://huggingface.co/datasets/uonlp/CulturaX)
総トークン数: 63兆
総言語数: 167

LOLA v1の訓練

コンピューティングクラスタ: Noctua2 (https://pc2.uni-paderborn.de/hpc-services/available-systems/noctua2)
GPU数: 96台のNvidia A100 (40GB)
訓練ステップ: 296000
消費トークン数: 4650億
訓練時間: 約19日

🔧 技術詳細

📄 ライセンス

このモデルはCC BY 4.0ライセンスの下で公開されています。詳細は https://creativecommons.org/licenses/by/4.0/ を参照してください。

引用

もしあなたの研究でこのモデルを使用する場合は、以下のように引用してください。

@inproceedings{srivastava-etal-2025-lola,
  author    = {Nikit Srivastava and Denis Kuchelev and Tatiana Moteu Ngoli and Kshitij Shetty and Michael Röder and Hamada Zahera and Diego Moussallem and Axel-Cyrille Ngonga Ngomo},
  title     = {{LOLA} -- An Open-Source Massively Multilingual Large Language Model},
  booktitle = {Proceedings of the 31st International Conference on Computational Linguistics},
  editor    = {Owen Rambow and Leo Wanner and Marianna Apidianaki and Hend Al-Khalifa and Barbara Di Eugenio and Steven Schockaert},
  month     = jan,
  year      = {2025},
  address   = {Abu Dhabi, UAE},
  publisher = {Association for Computational Linguistics},
  pages     = {6420--6446},
  url       = {https://aclanthology.org/2025.coling-main.428/},
  note      = {arXiv:2409.11272 [cs.CL]},
}