🚀 MADLAD-400-7B-MT 模型卡片
MADLAD-400-7B-MT 是一個基於 T5 架構的多語言機器翻譯模型。它使用公開數據在 2500 億個涵蓋 450 多種語言的標記上進行訓練,能與更大規模的模型相媲美。其 72 億參數模型的微調版本在反向翻譯數據上表現出色,可顯著提升英語到其他語言的翻譯效果。
🚀 快速開始
使用 transformers
庫運行 PyTorch 模型
在 CPU 或 GPU 上運行模型
首先,安裝所需的 Python 包:
pip install transformers accelerate sentencepiece
from transformers import T5ForConditionalGeneration, T5Tokenizer
model_name = 'jbochi/madlad400-7b-mt-bt'
model = T5ForConditionalGeneration.from_pretrained(model_name, device_map="auto")
tokenizer = T5Tokenizer.from_pretrained(model_name)
text = "<2pt> I love pizza!"
input_ids = tokenizer(text, return_tensors="pt").input_ids.to(model.device)
outputs = model.generate(input_ids=input_ids)
tokenizer.decode(outputs[0], skip_special_tokens=True)
使用 Candle 運行模型
使用 candle 的示例:
$ cargo run --example t5 --release -- \
--model-id "jbochi/madlad400-7b-mt-bt" \
--prompt "<2de> How are you, my friend?" \
--decode --temperature 0
✨ 主要特性
- 多語言支持:支持超過 400 種語言的機器翻譯和多語言 NLP 任務。
- 架構優勢:基於 T5 架構,在多語言處理上表現出色。
- 數據豐富:使用 MADLAD-400 和公開數據進行訓練,數據覆蓋廣泛。
📦 安裝指南
使用 transformers
庫時,通過以下命令安裝所需依賴:
pip install transformers accelerate sentencepiece
💻 使用示例
基礎用法
from transformers import T5ForConditionalGeneration, T5Tokenizer
model_name = 'jbochi/madlad400-7b-mt-bt'
model = T5ForConditionalGeneration.from_pretrained(model_name, device_map="auto")
tokenizer = T5Tokenizer.from_pretrained(model_name)
text = "<2pt> I love pizza!"
input_ids = tokenizer(text, return_tensors="pt").input_ids.to(model.device)
outputs = model.generate(input_ids=input_ids)
tokenizer.decode(outputs[0], skip_special_tokens=True)
高級用法
使用 Candle 運行模型:
$ cargo run --example t5 --release -- \
--model-id "jbochi/madlad400-7b-mt-bt" \
--prompt "<2de> How are you, my friend?" \
--decode --temperature 0
📚 詳細文檔
模型詳情
使用場景
直接使用和下游使用
主要預期用途:超過 400 種語言的機器翻譯和多語言 NLP 任務。
主要預期用戶:研究社區。
超出適用範圍的使用
這些模型在通用領域數據上進行訓練,因此不能直接用於特定領域的模型。此外,這些研究模型尚未針對生產用例進行評估。
偏差、風險和侷限性
倫理考慮和風險
我們使用 MADLAD-400 和公開數據訓練這些模型,以創建支持 400 多種語言 NLP 的基線模型,重點關注大規模語料庫中代表性不足的語言。儘管進行了廣泛的預處理,但由於使用了網絡爬取的數據集,其中可能包含敏感、冒犯性或其他低質量內容,因此底層訓練數據的這些問題仍可能導致模型性能差異以及特定領域的有毒(或其他有問題)輸出。此外,大型模型是兩用技術,其使用和開發存在特定風險。我們建議讀者參考 Weidinger 等人或 Bommasani 等人撰寫的調查,以更詳細地討論這些風險,並參考 Liebling 等人的文章,以全面討論機器翻譯系統的風險。
已知侷限性
更多信息待補充。
敏感使用
更多信息待補充。
訓練詳情
我們訓練了各種規模的模型:一個 30 億參數、32 層的模型,一個 72 億參數、48 層的模型和一個 107 億參數、32 層的模型。我們在語言對之間共享模型的所有參數,並在編碼器和解碼器端使用一個包含 256k 標記的 Sentence Piece 模型。每個輸入句子在源句子前添加一個 <2xx>
標記,以指示目標語言。
訓練數據
對於機器翻譯和語言模型,均使用 MADLAD-400。對於機器翻譯模型,還使用了涵蓋 157 種語言的並行數據源組合。更多詳細信息請參閱 論文。
訓練過程
更多詳細信息請參閱 研究論文。
評估
測試數據、因素和指標
為了進行評估,我們使用了 WMT、NTREX、Flores-200 和 Gatones 數據集,具體描述見 論文 第 4.3 節。
該模型的翻譯質量因語言而異,如論文所示,並且可能因領域而異,儘管我們尚未對此進行評估。
評估結果

更多詳細信息請參閱 研究論文。
環境影響
更多信息待補充。
📄 許可證
本項目採用 Apache 2.0 許可證。
📖 引用
@misc{kudugunta2023madlad400,
title={MADLAD-400: A Multilingual And Document-Level Large Audited Dataset},
author={Sneha Kudugunta and Isaac Caswell and Biao Zhang and Xavier Garcia and Christopher A. Choquette-Choo and Katherine Lee and Derrick Xin and Aditya Kusupati and Romi Stella and Ankur Bapna and Orhan Firat},
year={2023},
eprint={2309.04662},
archivePrefix={arXiv},
primaryClass={cs.CL}
}