🚀 Google's UMT5
UMT5は、107の言語をカバーするmC4コーパスの更新版で事前学習されたモデルです。このモデルは、多言語の自然言語処理タスクにおいて高い性能を発揮することが期待されます。
🚀 クイックスタート
UMT5は、Google's UMT5で公開されています。このモデルは、107の言語をカバーするmC4コーパスの更新版で事前学習されています。
サポートされる言語
- Afrikaans, Albanian, Amharic, Arabic, Armenian, Azerbaijani, Basque, Belarusian, Bengali, Bulgarian, Burmese, Catalan, Cebuano, Chichewa, Chinese, Corsican, Czech, Danish, Dutch, English, Esperanto, Estonian, Filipino, Finnish, French, Galician, Georgian, German, Greek, Gujarati, Haitian Creole, Hausa, Hawaiian, Hebrew, Hindi, Hmong, Hungarian, Icelandic, Igbo, Indonesian, Irish, Italian, Japanese, Javanese, Kannada, Kazakh, Khmer, Korean, Kurdish, Kyrgyz, Lao, Latin, Latvian, Lithuanian, Luxembourgish, Macedonian, Malagasy, Malay, Malayalam, Maltese, Maori, Marathi, Mongolian, Nepali, Norwegian, Pashto, Persian, Polish, Portuguese, Punjabi, Romanian, Russian, Samoan, Scottish Gaelic, Serbian, Shona, Sindhi, Sinhala, Slovak, Slovenian, Somali, Sotho, Spanish, Sundanese, Swahili, Swedish, Tajik, Tamil, Telugu, Thai, Turkish, Ukrainian, Urdu, Uzbek, Vietnamese, Welsh, West Frisian, Xhosa, Yiddish, Yoruba, Zulu.
注意事項
⚠️ 重要提示
UMT5は、教師あり学習を含まないmC4コーパスでのみ事前学習されています。したがって、このモデルは下流のタスクで使用する前に微調整する必要があります。
✨ 主な機能
- 多言語対応:107の言語をカバーするmC4コーパスで事前学習されています。
- 高性能:多言語の自然言語処理タスクにおいて高い性能を発揮することが期待されます。
📚 ドキュメント
事前学習データセット
その他のコミュニティチェックポイント
論文
著者
- Hyung Won Chung, Xavier Garcia, Adam Roberts, Yi Tay, Orhan Firat, Sharan Narang, Noah Constant
📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下で公開されています。
概要
事前学習された多言語大規模言語モデルは、通常、異なる言語間のバランスを取るためにヒューリスティックな温度ベースのサンプリングを使用しています。しかし、以前の研究では、モデル規模にわたる異なる事前学習言語分布の有効性を体系的に評価していません。この論文では、各言語のコーパスに対する繰り返し回数を明示的に制限することで、主要言語のより均一なカバレッジを提供し、尾端言語の過学習を軽減する新しいサンプリング方法であるUniMaxを提案します。我々は、モデル規模を変化させながら、一連の多言語ベンチマークでさまざまなサンプリング戦略をテストする大規模なアブレーション実験を行いました。その結果、UniMaxは標準的な温度ベースのサンプリングを上回り、その効果は規模が増大するにつれて持続することがわかりました。我々の貢献の一部として、(i) 107の言語にわたる29兆文字からなる改善されたmC4多言語コーパスと、(ii) UniMaxサンプリングで学習された一連の事前学習umT5モデルチェックポイントを公開します。