madlad400 - 10b - mt开源通用语言模型，支持超100种语言处理多样任务

首页

Madlad400 10b Mt

由 google 开发

一个支持超过100种语言的通用语言模型，适用于多种自然语言处理任务。

大型语言模型支持多种语言开源协议:Apache-2.0 #超多语言支持 #全球覆盖 #低资源语言优化

下载量 2,412

发布时间 : 11/27/2023

模型简介

该模型是一个多语言处理模型，支持广泛的语言覆盖，可用于文本分类、翻译、问答等多种任务。

模型特点

广泛的语言支持

支持超过100种语言，涵盖全球主要语言和多种方言。

多任务处理

能够执行多种自然语言处理任务，包括文本分类、翻译和问答。

基于Transformer架构

采用先进的Transformer架构，提供高效的文本处理能力。

模型能力

文本分类

翻译

问答

多语言处理

使用案例

翻译

多语言文档翻译

将文档从一种语言翻译成多种语言，支持广泛的语种覆盖。

高质量的翻译输出，支持多种语言对。

文本分类

多语言文本分类

对多种语言的文本进行分类，适用于内容审核、情感分析等场景。

准确的分类结果，支持多种语言。

🚀 MADLAD - 400 - 10B - MT模型卡片

MADLAD - 400 - 10B - MT是一个基于T5架构的多语言机器翻译模型。它使用公开可用的数据，在涵盖450多种语言的2500亿个标记上进行训练，能与规模大得多的模型相媲美。

🚀 快速开始

使用`transformers`库运行PyTorch模型

点击展开

首先，安装所需的Python包：

pip install transformers accelerate sentencepiece

from transformers import T5ForConditionalGeneration, T5Tokenizer

model_name = 'google/madlad400-10b-mt'
model = T5ForConditionalGeneration.from_pretrained(model_name, device_map="auto")
tokenizer = T5Tokenizer.from_pretrained(model_name)

text = "<2pt> I love pizza!"
input_ids = tokenizer(text, return_tensors="pt").input_ids.to(model.device)
outputs = model.generate(input_ids=input_ids)

tokenizer.decode(outputs[0], skip_special_tokens=True)
# Eu adoro pizza!

使用Candle运行模型

点击展开

使用 candle 的示例：

$ cargo run --example t5 --release  -- \
  --model-id "google/madlad400-10b-mt" \
  --prompt "<2de> How are you, my friend?" \
  --decode --temperature 0

✨ 主要特性

支持400多种语言的机器翻译和多语言NLP任务。
基于T5架构，在大规模多语言数据上训练，能与更大规模的模型竞争。

📦 安装指南

使用transformers库时，运行以下命令安装所需的Python包： pip install transformers accelerate sentencepiece

💻 使用示例

基础用法

from transformers import T5ForConditionalGeneration, T5Tokenizer

model_name = 'google/madlad400-10b-mt'
model = T5ForConditionalGeneration.from_pretrained(model_name, device_map="auto")
tokenizer = T5Tokenizer.from_pretrained(model_name)

text = "<2pt> I love pizza!"
input_ids = tokenizer(text, return_tensors="pt").input_ids.to(model.device)
outputs = model.generate(input_ids=input_ids)

tokenizer.decode(outputs[0], skip_special_tokens=True)
# Eu adoro pizza!

高级用法

使用Candle运行模型：

$ cargo run --example t5 --release  -- \
  --model-id "google/madlad400-10b-mt" \
  --prompt "<2de> How are you, my friend?" \
  --decode --temperature 0

📚 详细文档

模型详情

属性	详情
模型类型	语言模型
支持语言 (NLP)	多语言（400 + 种语言）
许可证	Apache 2.0
相关模型	所有MADLAD - 400检查点
原始检查点	所有原始MADLAD - 400检查点
更多信息资源	研究论文 GitHub仓库 Hugging Face MADLAD - 400文档（类似于T5） - 待处理PR

使用场景

直接使用和下游使用

主要预期用途：400多种语言的机器翻译和多语言NLP任务。主要预期用户：研究社区。

超出范围的使用

这些模型在通用领域数据上进行训练，因此不能直接用于特定领域的模型。此外，这些研究模型尚未针对生产用例进行评估。

偏差、风险和局限性

伦理考虑和风险

我们使用MADLAD - 400和公开可用的数据训练这些模型，以创建支持400多种语言NLP的基线模型，重点关注大规模语料库中代表性不足的语言。由于这些模型是使用网络爬取的数据集进行训练的，尽管进行了广泛的预处理，但这些数据集仍可能包含敏感、冒犯性或其他低质量的内容，因此底层训练数据的这些问题仍可能导致模型性能的差异，以及在某些领域产生有毒（或其他有问题）的输出。此外，大型模型是两用技术，其使用和开发存在特定风险。我们建议读者参考Weidinger等人或Bommasani等人撰写的调查，以更详细地讨论这些风险，参考Liebling等人的文章以全面讨论机器翻译系统的风险。

已知局限性

更多信息待补充。

敏感使用

更多信息待补充。

训练详情

我们训练了各种规模的模型：一个30亿参数、32层的模型，一个72亿参数、48层的模型和一个107亿参数、32层的模型。我们在语言对之间共享模型的所有参数，并使用一个在编码器和解码器端共享256k标记的Sentence Piece模型。每个输入句子在源句子前添加一个 <2xx> 标记，以指示目标语言。

更多详细信息请参阅研究论文。

训练数据

对于机器翻译和语言模型，都使用了MADLAD - 400。对于机器翻译模型，还使用了涵盖157种语言的平行数据源组合。更多详细信息在论文中描述。

训练过程

更多详细信息请参阅研究论文。

评估

测试数据、因素和指标

为了进行评估，我们使用了WMT、NTREX、Flores - 200和Gatones数据集，如论文第4.3节所述。

如论文所示，该模型的翻译质量因语言而异，并且可能因领域而异，尽管我们尚未对此进行评估。

结果

image/png

更多详细信息请参阅研究论文。

环境影响

更多信息待补充。

引用

BibTeX格式：

@misc{kudugunta2023madlad400,
      title={MADLAD-400: A Multilingual And Document-Level Large Audited Dataset}, 
      author={Sneha Kudugunta and Isaac Caswell and Biao Zhang and Xavier Garcia and Christopher A. Choquette-Choo and Katherine Lee and Derrick Xin and Aditya Kusupati and Romi Stella and Ankur Bapna and Orhan Firat},
      year={2023},
      eprint={2309.04662},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}