Madlad400 3b Mt
模型简介
模型特点
模型能力
使用案例
🚀 MADLAD - 400 - 3B - MT模型卡片
MADLAD - 400 - 3B - MT是基于T5架构的多语言机器翻译模型,在覆盖450多种语言的1万亿个标记上进行训练,使用公开可用的数据。它与规模大得多的模型相比也颇具竞争力。
🚀 快速开始
安装依赖
使用此模型前,你需要安装一些必要的Python包。可以使用以下命令进行安装:
pip install transformers accelerate sentencepiece protobuf
运行示例
以下是使用该模型进行翻译的Python代码示例:
from transformers import T5ForConditionalGeneration, T5Tokenizer
model_name = 'jbochi/madlad400-3b-mt'
model = T5ForConditionalGeneration.from_pretrained(model_name, device_map="auto")
tokenizer = T5Tokenizer.from_pretrained(model_name)
text = "<2pt> I love pizza!"
input_ids = tokenizer(text, return_tensors="pt").input_ids.to(model.device)
outputs = model.generate(input_ids=input_ids)
tokenizer.decode(outputs[0], skip_special_tokens=True)
# Eu adoro pizza!
使用Candle运行模型
你还可以使用candle来运行该模型:
$ cargo run --example t5 --release -- \
--model-id "jbochi/madlad400-3b-mt" \
--prompt "<2de> How are you, my friend?" \
--decode --temperature 0
我们还提供了量化模型(1.65GB,原文件为11.8GB):
cargo run --example quantized-t5 --release -- \
--model-id "jbochi/madlad400-3b-mt" --weight-file "model-q4k.gguf" \
--prompt "<2de> How are you, my friend?" \
--temperature 0
# ...
# Wie geht es dir, mein Freund?
✨ 主要特性
- 多语言支持:支持400多种语言,适用于广泛的机器翻译和多语言NLP任务。
- 架构优势:基于T5架构,在多语言处理方面表现出色。
- 竞争力强:与规模大得多的模型相比也具有竞争力。
📦 安装指南
使用Python包安装
要使用该模型,你需要安装以下Python包:
pip install transformers accelerate sentencepiece protobuf
💻 使用示例
基础用法
from transformers import T5ForConditionalGeneration, T5Tokenizer
model_name = 'jbochi/madlad400-3b-mt'
model = T5ForConditionalGeneration.from_pretrained(model_name, device_map="auto")
tokenizer = T5Tokenizer.from_pretrained(model_name)
text = "<2pt> I love pizza!"
input_ids = tokenizer(text, return_tensors="pt").input_ids.to(model.device)
outputs = model.generate(input_ids=input_ids)
tokenizer.decode(outputs[0], skip_special_tokens=True)
# Eu adoro pizza!
高级用法
使用Candle运行模型:
$ cargo run --example t5 --release -- \
--model-id "jbochi/madlad400-3b-mt" \
--prompt "<2de> How are you, my friend?" \
--decode --temperature 0
使用量化模型:
cargo run --example quantized-t5 --release -- \
--model-id "jbochi/madlad400-3b-mt" --weight-file "model-q4k.gguf" \
--prompt "<2de> How are you, my friend?" \
--temperature 0
# ...
# Wie geht es dir, mein Freund?
📚 详细文档
模型详情
属性 | 详情 |
---|---|
模型类型 | 语言模型 |
支持语言 | 多语言(400 + 种语言) |
许可证 | Apache - 2.0 |
相关模型 | 所有MADLAD - 400检查点 |
原始检查点 | [所有原始MADLAD - 400检查点](https://github.com/google - research/google - research/tree/master/madlad_400) |
更多信息资源 | 研究论文 [GitHub仓库](https://github.com/google - research/t5x) [Hugging Face MADLAD - 400文档(类似于T5)](https://huggingface.co/docs/transformers/model_doc/MADLAD - 400) - 待处理PR |
使用说明
直接使用和下游使用
- 主要预期用途:机器翻译和400多种语言的多语言NLP任务。
- 主要预期用户:研究社区。
超出范围的使用
这些模型是在通用领域数据上训练的,因此不能直接用于特定领域的模型。此外,这些研究模型尚未针对生产用例进行评估。
偏差、风险和局限性
伦理考虑和风险
我们使用MADLAD - 400和公开可用的数据训练这些模型,以创建支持400多种语言NLP的基线模型,重点关注大规模语料库中代表性不足的语言。由于这些模型是使用网络爬取的数据集训练的,尽管进行了广泛的预处理,但这些数据集仍可能包含敏感、冒犯性或其他低质量的内容,因此底层训练数据的这些问题仍可能导致模型性能差异以及某些领域的有毒(或其他有问题)输出。此外,大型模型是两用技术,其使用和开发存在特定风险。我们建议读者参考Weidinger等人或Bommasani等人撰写的调查,以更详细地讨论这些风险,并参考Liebling等人的文章,以全面讨论机器翻译系统的风险。
已知局限性
更多信息待补充。
敏感使用
更多信息待补充。
训练详情
训练数据
对于机器翻译和语言模型,均使用MADLAD - 400。对于机器翻译模型,还使用了涵盖157种语言的并行数据源组合。更多详细信息请参阅论文。
训练过程
更多详细信息请参阅研究论文。
评估
测试数据、因素和指标
评估时,我们使用了WMT、NTREX、Flores - 200和Gatones数据集,详情见论文的第4.3节。该模型的翻译质量因语言而异,如论文所示,并且可能因领域而异,尽管我们尚未对此进行评估。
评估结果
   更多详细信息请参阅研究论文。
环境影响
更多信息待补充。
🔧 技术细节
我们训练了不同规模的模型:一个3B、32层参数的模型,一个7.2B、48层参数的模型和一个10.7B、32层参数的模型。我们在语言对之间共享模型的所有参数,并使用一个在编码器和解码器端共享256k标记的Sentence Piece模型。每个输入句子在源句子前添加一个<2xx>标记,以指示目标语言。更多详细信息请参阅研究论文。
📄 许可证
本模型使用Apache 2.0许可证。
📖 引用
如果你使用了该模型,请使用以下BibTeX引用:
@misc{kudugunta2023madlad400,
title={MADLAD - 400: A Multilingual And Document - Level Large Audited Dataset},
author={Sneha Kudugunta and Isaac Caswell and Biao Zhang and Xavier Garcia and Christopher A. Choquette - Choo and Katherine Lee and Derrick Xin and Aditya Kusupati and Romi Stella and Ankur Bapna and Orhan Firat},
year={2023},
eprint={2309.04662},
archivePrefix={arXiv},
primaryClass={cs.CL}
}



