umt5-smallオープンソース多言語モデル - 107言語をカバーするテキスト処理ユーティリティ

ホーム

Umt5 Small

googleによって開発

mC4多言語コーパスに基づく事前学習済みの統一多言語T5モデルで、107言語をカバー

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多言語事前学習 #UniMaxサンプリング #107言語サポート

ダウンロード数 17.35k

リリース時間 : 7/2/2023

モデル概要

UMT5はGoogleが開発した多言語テキスト生成モデルで、UniMaxサンプリング戦略により言語分布を最適化し、言語間自然言語処理タスクに適しています。使用にはファインチューニングが必要です。

モデル特徴

UniMaxサンプリング戦略

コーパスの繰り返し回数を制限することで言語分布を最適化し、主要言語/少数言語のカバレッジをバランス

多言語サポート

低リソース言語を含む107言語をカバー

大規模事前学習

29兆文字のmC4多言語コーパスに基づく

モデル能力

多言語テキスト生成

言語間転移学習

ゼロショット学習（ファインチューニング必要）

使用事例

自然言語処理

機械翻訳

ファインチューニングにより言語間テキスト変換を実現

多言語質問応答システム

多言語対応のインテリジェントQAアプリケーション構築

コンテンツ生成

多言語コンテンツ作成

異なる言語のマーケティングコピー/ニュース要約を生成

🚀 GoogleのUMT5

UMT5は、多言語の事前学習モデルです。更新されたmC4コーパスを用いて事前学習されており、107の言語をカバーしています。このモデルは下流タスクで使用する前に微調整が必要です。

🚀 クイックスタート

UMT5は、Google's UMT5で公開されています。このモデルは、更新されたmC4コーパスを用いて事前学習されており、107の言語をカバーしています。

✨ 主な機能

多言語対応：107の言語をカバーしています。
事前学習済み：更新されたmC4コーパスを用いて事前学習されています。

📦 インストール

ドキュメントに具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

ドキュメントに具体的なコード例が記載されていないため、このセクションをスキップします。

📚 ドキュメント

事前学習データセット

UMT5は、更新されたmC4コーパスを用いて事前学習されています。このコーパスは107の言語をカバーしています。

その他のコミュニティチェックポイント

他のコミュニティチェックポイントはこちらで確認できます。

論文

UniMax, Fairer and More Effective Language Sampling for Large-Scale Multilingual Pretraining

著者

by Hyung Won Chung, Xavier Garcia, Adam Roberts, Yi Tay, Orhan Firat, Sharan Narang, Noah Constant

概要

事前学習された多言語大規模言語モデルは、通常、異なる言語間のバランスを取るために、ヒューリスティックな温度ベースのサンプリングを使用しています。しかし、以前の研究では、モデルの規模に関わらず、異なる事前学習言語分布の有効性を体系的に評価していません。この論文では、新しいサンプリング方法であるUniMaxを提案します。この方法は、各言語のコーパスの繰り返し回数を明示的に制限することで、主要言語のより均一なカバレッジを提供し、尾端言語の過学習を軽減します。モデルの規模を変化させながら、一連の多言語ベンチマークでさまざまなサンプリング戦略をテストする広範なアブレーション実験を行いました。その結果、UniMaxは標準的な温度ベースのサンプリングを上回り、そのメリットは規模が増大するにつれて持続することがわかりました。この研究の成果として、(i) 107の言語で29兆文字を含む改善されたmC4多言語コーパスと、(ii) UniMaxサンプリングを用いて学習された一連の事前学習済みumT5モデルのチェックポイントを公開しています。