🚀 MADLAD-400-7B-MT 模型卡
MADLAD-400-7B-MT 是一个基于 T5 架构的多语言机器翻译模型。它使用公开数据在覆盖 450 多种语言的 2500 亿个标记上进行训练,能与规模大得多的模型相媲美。
🚀 快速开始
使用 transformers
调用 PyTorch 模型
在 CPU 或 GPU 上运行模型
首先,安装所需的 Python 包:
pip install transformers accelerate sentencepiece
from transformers import T5ForConditionalGeneration, T5Tokenizer
model_name = 'jbochi/madlad400-7b-mt'
model = T5ForConditionalGeneration.from_pretrained(model_name, device_map="auto")
tokenizer = T5Tokenizer.from_pretrained(model_name)
text = "<2pt> I love pizza!"
input_ids = tokenizer(text, return_tensors="pt").input_ids.to(model.device)
outputs = model.generate(input_ids=input_ids)
tokenizer.decode(outputs[0], skip_special_tokens=True)
使用 Candle 运行模型
使用 candle 的示例:
$ cargo run --example t5 --release -- \
--model-id "jbochi/madlad400-7b-mt" \
--prompt "<2de> How are you, my friend?" \
--decode --temperature 0
✨ 主要特性
- 多语言支持:支持 400 多种语言,适用于广泛的机器翻译和多语言 NLP 任务。
- 架构优势:基于 T5 架构,在多语言处理上表现出色,能与更大规模的模型竞争。
📦 安装指南
使用该模型前,需要安装相应的 Python 包:
pip install transformers accelerate sentencepiece
💻 使用示例
基础用法
from transformers import T5ForConditionalGeneration, T5Tokenizer
model_name = 'jbochi/madlad400-7b-mt'
model = T5ForConditionalGeneration.from_pretrained(model_name, device_map="auto")
tokenizer = T5Tokenizer.from_pretrained(model_name)
text = "<2pt> I love pizza!"
input_ids = tokenizer(text, return_tensors="pt").input_ids.to(model.device)
outputs = model.generate(input_ids=input_ids)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
高级用法
使用 candle 运行模型:
$ cargo run --example t5 --release -- \
--model-id "jbochi/madlad400-7b-mt" \
--prompt "<2de> How are you, my friend?" \
--decode --temperature 0
📚 详细文档
模型详情
用途
直接使用和下游使用
- 主要预期用途:机器翻译和 400 多种语言的多语言 NLP 任务。
- 主要预期用户:研究社区。
超出适用范围的使用
这些模型在通用领域数据上进行训练,因此不能直接用于特定领域的模型。此外,这些研究模型尚未针对生产用例进行评估。
偏差、风险和局限性
伦理考量和风险
我们使用 MADLAD-400 和公开数据训练这些模型,以创建支持 400 多种语言 NLP 的基线模型,重点关注大规模语料库中代表性不足的语言。由于这些模型是使用网络爬取的数据集进行训练的,尽管进行了广泛的预处理,但这些数据集仍可能包含敏感、冒犯性或其他低质量内容。因此,基础训练数据中的这些问题仍可能导致模型在某些领域的性能差异和有毒(或其他有问题)的输出。此外,大型模型是具有特定使用和开发风险的两用技术。我们建议读者参考 Weidinger 等人或 Bommasani 等人撰写的调查,以更详细地讨论这些风险,并参考 Liebling 等人的文章,以全面讨论机器翻译系统的风险。
已知局限性
更多信息待补充。
敏感使用
更多信息待补充。
训练详情
我们训练了各种规模的模型:一个 30 亿参数、32 层的模型,一个 72 亿参数、48 层的模型和一个 107 亿参数、32 层的模型。我们在所有语言对上共享模型的所有参数,并使用一个在编码器和解码器端共享 256k 标记的 Sentence Piece 模型。每个输入句子在源句子前添加一个 <2xx> 标记,以指示目标语言。
训练数据
对于机器翻译和语言模型,都使用了 MADLAD-400。对于机器翻译模型,还使用了涵盖 157 种语言的平行数据源组合。更多详细信息请参考论文。
训练过程
更多详细信息请参考研究论文。
评估
测试数据、因素和指标
在评估中,我们使用了 WMT、NTREX、Flores-200 和 Gatones 数据集,详情见论文的第 4.3 节。该模型的翻译质量因语言而异,如论文所示,并且可能因领域而异,尽管我们尚未对此进行评估。
结果
更多详细信息请参考研究论文。
环境影响
更多信息待补充。
🔧 技术细节
更多详细信息请参考研究论文。
📄 许可证
本模型使用 Apache 2.0 许可证。
📖 引用
@misc{kudugunta2023madlad400,
title={MADLAD-400: A Multilingual And Document-Level Large Audited Dataset},
author={Sneha Kudugunta and Isaac Caswell and Biao Zhang and Xavier Garcia and Christopher A. Choquette-Choo and Katherine Lee and Derrick Xin and Aditya Kusupati and Romi Stella and Ankur Bapna and Orhan Firat},
year={2023},
eprint={2309.04662},
archivePrefix={arXiv},
primaryClass={cs.CL}
}