U

Umt5 Xxl

Developed by google
UMT5是基於mC4多語種語料庫預訓練的多語言文本生成模型,支持107種語言,採用UniMax採樣策略優化語言平衡
Downloads 4,449
Release Time : 7/2/2023

Model Overview

基於T5架構的多語言預訓練模型,專注於跨語言文本生成任務,需針對下游任務微調後使用

Model Features

UniMax採樣策略
通過設置語言重複上限實現更公平的語言分佈,避免尾部語言過擬合
大規模多語言支持
覆蓋107種語言,包含主流語種和低資源語言
升級版mC4語料庫
基於29萬億字符的多語言預訓練數據

Model Capabilities

多語言文本生成
跨語言遷移學習
文本摘要
機器翻譯

Use Cases

自然語言處理
多語言機器翻譯
通過微調實現低資源語言的翻譯任務
跨語言文本摘要
支持多種語言的文本摘要生成
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase