umt5-xlオープンソース多言語テキスト生成モデル - 107の言語をサポートし、多言語コンテンツを簡単に作成

ホーム

Umt5 Xl

googleによって開発

mC4多言語コーパスに基づく事前学習済み多言語テキスト生成モデル、107言語をサポート

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多言語事前学習 #UniMaxサンプリング #教師なし学習

ダウンロード数 1,049

リリース時間 : 7/2/2023

モデル概要

UMT5はGoogleが開発した多言語T5モデルの変種で、UniMaxサンプリング手法により言語分布のバランスを最適化し、言語間テキスト生成・理解タスクに適しています。微調整が必要です。

モデル特徴

UniMaxサンプリング技術

コーパスの繰り返し回数を制限することでより公平な言語分布を実現し、低頻度言語の性能を向上

大規模多言語サポート

ミャオ語やハワイ語などの低リソース言語を含む107言語をカバー

改良版mC4コーパス

29兆文字の多言語クリーニングデータで訓練

モデル能力

多言語テキスト生成

言語間転移学習

テキスト理解

機械翻訳基盤モデル

使用事例

自然言語処理

多言語テキスト要約

100以上の言語でテキスト要約を生成可能

低リソース言語処理

アフリカ、東南アジアなどの低リソース言語に対する基礎サポートを提供

教育技術

言語学習ツール

多言語学習アプリケーションの基盤エンジンとして利用可能

🚀 GoogleのUMT5

UMT5は、多言語処理に特化した事前学習モデルです。mC4コーパスの最新版を用いて事前学習されており、107の言語をカバーしています。このモデルは下流タスクに使用する前にファインチューニングが必要です。

✨ 主な機能

多言語対応：107の言語をサポートし、広範な言語のデータを扱うことができます。
新しいサンプリング手法：UniMaxという新しいサンプリング手法を用いており、ヘッド言語の均一なカバレッジを実現し、テール言語の過学習を軽減します。

📦 インストール

原READMEにインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

原READMEに使用例のコードが記載されていないため、このセクションをスキップします。

📚 ドキュメント

モデル概要

Google's UMT5は、mC4コーパスの更新版を用いて事前学習されたモデルです。このコーパスは107の言語をカバーしており、以下の言語が含まれます。

アフリカーンス語、アルバニア語、アムハラ語、アラビア語、アルメニア語、アゼルバイジャン語、バスク語、ベラルーシ語、ベンガル語、ブルガリア語、ビルマ語、カタルーニャ語、セブアノ語、チチェワ語、中国語、コルシカ語、チェコ語、デンマーク語、オランダ語、英語、エスペラント語、エストニア語、フィリピン語、フィンランド語、フランス語、ガリシア語、グルジア語、ドイツ語、ギリシャ語、グジャラート語、ハイチ語、ハウサ語、ハワイ語、ヘブライ語、ヒンディー語、ホモン語、ハンガリー語、アイスランド語、イボ語、インドネシア語、アイルランド語、イタリア語、日本語、ジャワ語、カンナダ語、カザフ語、クメール語、韓国語、クルド語、キルギス語、ラオス語、ラテン語、ラトビア語、リトアニア語、ルクセンブルク語、マケドニア語、マダガスカル語、マレー語、マラヤーラム語、マルタ語、マオリ語、マラーティー語、モンゴル語、ネパール語、ノルウェー語、パシュトー語、ペルシャ語、ポーランド語、ポルトガル語、パンジャブ語、ルーマニア語、ロシア語、サモア語、スコットランド・ゲール語、セルビア語、ショナ語、シンド語、シンハラ語、スロバキア語、スロベニア語、ソマリ語、ソト語、スペイン語、スンダ語、スワヒリ語、スウェーデン語、タジク語、タミル語、テルグ語、タイ語、トルコ語、ウクライナ語、ウルドゥー語、ウズベク語、ベトナム語、ウェールズ語、西フリジア語、コサ語、イディッシュ語、ヨルバ語、ズールー語。

注意事項

UMT5はmC4コーパスでのみ事前学習されており、教師付き学習は行われていません。したがって、このモデルは下流タスクで使用する前にファインチューニングする必要があります。

事前学習データセット

その他のコミュニティチェックポイント

こちら

論文

UniMax, Fairer and More Effective Language Sampling for Large-Scale Multilingual Pretraining

著者

Hyung Won Chung, Xavier Garcia, Adam Roberts, Yi Tay, Orhan Firat, Sharan Narang, Noah Constant

概要

事前学習された多言語大規模言語モデルは、通常、異なる言語間のバランスを取るためにヒューリスティックな温度ベースのサンプリングを使用しています。しかし、以前の研究では、モデルの規模にわたる異なる事前学習言語分布の有効性を体系的に評価していません。この論文では、新しいサンプリング手法であるUniMaxを提案します。この手法は、各言語のコーパスに対する繰り返し回数を明示的に制限することで、ヘッド言語のより均一なカバレッジを提供し、テール言語の過学習を軽減します。我々は、モデルの規模を変化させながら、一連の多言語ベンチマークで様々なサンプリング戦略をテストする広範なアブレーション実験を行いました。その結果、UniMaxは標準的な温度ベースのサンプリングを上回り、その効果は規模が増大するにつれて持続することがわかりました。我々の貢献の一部として、以下を公開します。