umt5-xxlオープンソース多言語テキスト生成モデル - 107言語に対応し、効率的にテキストコンテンツを生成

ホーム

Umt5 Xxl

googleによって開発

UMT5はmC4多言語コーパスで事前学習された多言語テキスト生成モデルで、107言語をサポートし、UniMaxサンプリング戦略により言語バランスを最適化

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多言語事前学習 #UniMaxサンプリング #107言語対応

ダウンロード数 4,449

リリース時間 : 7/2/2023

モデル概要

T5アーキテクチャに基づく多言語事前学習モデルで、言語間テキスト生成タスクに特化しており、下流タスク用にファインチューニングが必要

モデル特徴

UniMaxサンプリング戦略

言語繰り返し上限を設定することでより公平な言語分布を実現し、低頻度言語の過学習を防止

大規模多言語サポート

107言語をカバーし、主要言語と低リソース言語を含む

改良版mC4コーパス

29兆文字の多言語事前学習データに基づく

モデル能力

多言語テキスト生成

言語間転移学習

テキスト要約

機械翻訳

使用事例

自然言語処理

多言語機械翻訳

ファインチューニングにより低リソース言語の翻訳タスクを実現

言語間テキスト要約

複数言語のテキスト要約生成をサポート

🚀 Google's UMT5

UMT5は、107の言語をカバーするmC4コーパスの更新版で事前学習されたモデルです。このモデルは、多言語の自然言語処理タスクにおいて高い性能を発揮することが期待されます。

🚀 クイックスタート

UMT5は、Google's UMT5で公開されています。このモデルは、107の言語をカバーするmC4コーパスの更新版で事前学習されています。

サポートされる言語

Afrikaans, Albanian, Amharic, Arabic, Armenian, Azerbaijani, Basque, Belarusian, Bengali, Bulgarian, Burmese, Catalan, Cebuano, Chichewa, Chinese, Corsican, Czech, Danish, Dutch, English, Esperanto, Estonian, Filipino, Finnish, French, Galician, Georgian, German, Greek, Gujarati, Haitian Creole, Hausa, Hawaiian, Hebrew, Hindi, Hmong, Hungarian, Icelandic, Igbo, Indonesian, Irish, Italian, Japanese, Javanese, Kannada, Kazakh, Khmer, Korean, Kurdish, Kyrgyz, Lao, Latin, Latvian, Lithuanian, Luxembourgish, Macedonian, Malagasy, Malay, Malayalam, Maltese, Maori, Marathi, Mongolian, Nepali, Norwegian, Pashto, Persian, Polish, Portuguese, Punjabi, Romanian, Russian, Samoan, Scottish Gaelic, Serbian, Shona, Sindhi, Sinhala, Slovak, Slovenian, Somali, Sotho, Spanish, Sundanese, Swahili, Swedish, Tajik, Tamil, Telugu, Thai, Turkish, Ukrainian, Urdu, Uzbek, Vietnamese, Welsh, West Frisian, Xhosa, Yiddish, Yoruba, Zulu.

注意事項

⚠️ 重要提示

UMT5は、教師あり学習を含まないmC4コーパスでのみ事前学習されています。したがって、このモデルは下流のタスクで使用する前に微調整する必要があります。

✨ 主な機能

多言語対応：107の言語をカバーするmC4コーパスで事前学習されています。
高性能：多言語の自然言語処理タスクにおいて高い性能を発揮することが期待されます。

📚 ドキュメント

事前学習データセット

その他のコミュニティチェックポイント

こちら

論文

UniMax, Fairer and More Effective Language Sampling for Large-Scale Multilingual Pretraining

著者

Hyung Won Chung, Xavier Garcia, Adam Roberts, Yi Tay, Orhan Firat, Sharan Narang, Noah Constant

📄 ライセンス

このプロジェクトは、Apache-2.0ライセンスの下で公開されています。

概要

事前学習された多言語大規模言語モデルは、通常、異なる言語間のバランスを取るためにヒューリスティックな温度ベースのサンプリングを使用しています。しかし、以前の研究では、モデル規模にわたる異なる事前学習言語分布の有効性を体系的に評価していません。この論文では、各言語のコーパスに対する繰り返し回数を明示的に制限することで、主要言語のより均一なカバレッジを提供し、尾端言語の過学習を軽減する新しいサンプリング方法であるUniMaxを提案します。我々は、モデル規模を変化させながら、一連の多言語ベンチマークでさまざまなサンプリング戦略をテストする大規模なアブレーション実験を行いました。その結果、UniMaxは標準的な温度ベースのサンプリングを上回り、その効果は規模が増大するにつれて持続することがわかりました。我々の貢献の一部として、(i) 107の言語にわたる29兆文字からなる改善されたmC4多言語コーパスと、(ii) UniMaxサンプリングで学習された一連の事前学習umT5モデルチェックポイントを公開します。