madlad400-7b-mt开源多语言翻译模型 - 支持400+语言随心互译

首页

Madlad400 7b Mt

由 google 开发

基于T5架构的多语言机器翻译模型，支持400+种语言，使用2500亿token训练

机器翻译支持多种语言开源协议:Apache-2.0 #多语言机器翻译 #450+语言支持 #T5架构优化

下载量 4,450

发布时间 : 11/27/2023

模型简介

MADLAD-400-7B-MT是一个多语言机器翻译模型，基于T5架构，支持超过450种语言的翻译任务。该模型使用公开数据训练，性能可与更大规模的模型竞争。

模型特点

广泛的语言支持

支持超过450种语言的翻译任务，涵盖全球主要语言和多种小众语言

高效性能

7B参数规模下仍能与更大模型竞争，实现高质量的翻译效果

开源许可

采用Apache 2.0许可证，允许商业和研究用途

模型能力

多语言文本翻译

跨语言文本生成

大规模语言理解

使用案例

机器翻译

英语到葡萄牙语翻译

将英语文本翻译为葡萄牙语

高质量翻译结果

德语到英语翻译

将德语文本翻译为英语

准确保持语义和语境

多语言应用

多语言内容生成

生成多种语言的文本内容

支持400+种语言的文本生成

🚀 MADLAD-400-7B-MT 模型卡

MADLAD-400-7B-MT 是一个基于 T5 架构的多语言机器翻译模型。它使用公开数据在覆盖 450 多种语言的 2500 亿个标记上进行训练，能与规模大得多的模型相媲美。

🚀 快速开始

使用 `transformers` 调用 PyTorch 模型

在 CPU 或 GPU 上运行模型

首先，安装所需的 Python 包：

pip install transformers accelerate sentencepiece

from transformers import T5ForConditionalGeneration, T5Tokenizer

model_name = 'jbochi/madlad400-7b-mt'
model = T5ForConditionalGeneration.from_pretrained(model_name, device_map="auto")
tokenizer = T5Tokenizer.from_pretrained(model_name)

text = "<2pt> I love pizza!"
input_ids = tokenizer(text, return_tensors="pt").input_ids.to(model.device)
outputs = model.generate(input_ids=input_ids)

tokenizer.decode(outputs[0], skip_special_tokens=True)
# Eu adoro pizza!

使用 Candle 运行模型

使用 candle 的示例：

$ cargo run --example t5 --release  -- \
  --model-id "jbochi/madlad400-7b-mt" \
  --prompt "<2de> How are you, my friend?" \
  --decode --temperature 0

✨ 主要特性

多语言支持：支持 400 多种语言，适用于广泛的机器翻译和多语言 NLP 任务。
架构优势：基于 T5 架构，在多语言处理上表现出色，能与更大规模的模型竞争。

📦 安装指南

使用该模型前，需要安装相应的 Python 包：

pip install transformers accelerate sentencepiece

💻 使用示例

基础用法

from transformers import T5ForConditionalGeneration, T5Tokenizer

model_name = 'jbochi/madlad400-7b-mt'
model = T5ForConditionalGeneration.from_pretrained(model_name, device_map="auto")
tokenizer = T5Tokenizer.from_pretrained(model_name)

text = "<2pt> I love pizza!"
input_ids = tokenizer(text, return_tensors="pt").input_ids.to(model.device)
outputs = model.generate(input_ids=input_ids)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))
# 输出: Eu adoro pizza!

高级用法

使用 candle 运行模型：

$ cargo run --example t5 --release  -- \
  --model-id "jbochi/madlad400-7b-mt" \
  --prompt "<2de> How are you, my friend?" \
  --decode --temperature 0

📚 详细文档

模型详情

属性	详情
模型类型	语言模型
支持语言 (NLP)	多语言（400 多种语言）
许可证	Apache 2.0
相关模型	所有 MADLAD-400 检查点
原始检查点	所有原始 MADLAD-400 检查点
更多信息资源	研究论文、GitHub 仓库、Hugging Face MADLAD-400 文档（类似于 T5） - 待处理 PR

用途

直接使用和下游使用

主要预期用途：机器翻译和 400 多种语言的多语言 NLP 任务。
主要预期用户：研究社区。

超出适用范围的使用

这些模型在通用领域数据上进行训练，因此不能直接用于特定领域的模型。此外，这些研究模型尚未针对生产用例进行评估。

偏差、风险和局限性

伦理考量和风险

我们使用 MADLAD-400 和公开数据训练这些模型，以创建支持 400 多种语言 NLP 的基线模型，重点关注大规模语料库中代表性不足的语言。由于这些模型是使用网络爬取的数据集进行训练的，尽管进行了广泛的预处理，但这些数据集仍可能包含敏感、冒犯性或其他低质量内容。因此，基础训练数据中的这些问题仍可能导致模型在某些领域的性能差异和有毒（或其他有问题）的输出。此外，大型模型是具有特定使用和开发风险的两用技术。我们建议读者参考 Weidinger 等人或 Bommasani 等人撰写的调查，以更详细地讨论这些风险，并参考 Liebling 等人的文章，以全面讨论机器翻译系统的风险。

已知局限性

更多信息待补充。

敏感使用

更多信息待补充。

训练详情

我们训练了各种规模的模型：一个 30 亿参数、32 层的模型，一个 72 亿参数、48 层的模型和一个 107 亿参数、32 层的模型。我们在所有语言对上共享模型的所有参数，并使用一个在编码器和解码器端共享 256k 标记的 Sentence Piece 模型。每个输入句子在源句子前添加一个 <2xx> 标记，以指示目标语言。

训练数据

对于机器翻译和语言模型，都使用了 MADLAD-400。对于机器翻译模型，还使用了涵盖 157 种语言的平行数据源组合。更多详细信息请参考论文。

训练过程

更多详细信息请参考研究论文。

评估

测试数据、因素和指标

在评估中，我们使用了 WMT、NTREX、Flores-200 和 Gatones 数据集，详情见论文的第 4.3 节。该模型的翻译质量因语言而异，如论文所示，并且可能因领域而异，尽管我们尚未对此进行评估。

结果

image/png 更多详细信息请参考研究论文。

环境影响

更多信息待补充。

🔧 技术细节

更多详细信息请参考研究论文。

📄 许可证

本模型使用 Apache 2.0 许可证。

📖 引用

@misc{kudugunta2023madlad400,
      title={MADLAD-400: A Multilingual And Document-Level Large Audited Dataset}, 
      author={Sneha Kudugunta and Isaac Caswell and Biao Zhang and Xavier Garcia and Christopher A. Choquette-Choo and Katherine Lee and Derrick Xin and Aditya Kusupati and Romi Stella and Ankur Bapna and Orhan Firat},
      year={2023},
      eprint={2309.04662},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}