Madlad400 3b Mt
模型概述
模型特點
模型能力
使用案例
🚀 MADLAD - 400 - 3B - MT模型卡片
MADLAD - 400 - 3B - MT是基於T5架構的多語言機器翻譯模型,在覆蓋450多種語言的1萬億個標記上進行訓練,使用公開可用的數據。它與規模大得多的模型相比也頗具競爭力。
🚀 快速開始
安裝依賴
使用此模型前,你需要安裝一些必要的Python包。可以使用以下命令進行安裝:
pip install transformers accelerate sentencepiece protobuf
運行示例
以下是使用該模型進行翻譯的Python代碼示例:
from transformers import T5ForConditionalGeneration, T5Tokenizer
model_name = 'jbochi/madlad400-3b-mt'
model = T5ForConditionalGeneration.from_pretrained(model_name, device_map="auto")
tokenizer = T5Tokenizer.from_pretrained(model_name)
text = "<2pt> I love pizza!"
input_ids = tokenizer(text, return_tensors="pt").input_ids.to(model.device)
outputs = model.generate(input_ids=input_ids)
tokenizer.decode(outputs[0], skip_special_tokens=True)
# Eu adoro pizza!
使用Candle運行模型
你還可以使用candle來運行該模型:
$ cargo run --example t5 --release -- \
--model-id "jbochi/madlad400-3b-mt" \
--prompt "<2de> How are you, my friend?" \
--decode --temperature 0
我們還提供了量化模型(1.65GB,原文件為11.8GB):
cargo run --example quantized-t5 --release -- \
--model-id "jbochi/madlad400-3b-mt" --weight-file "model-q4k.gguf" \
--prompt "<2de> How are you, my friend?" \
--temperature 0
# ...
# Wie geht es dir, mein Freund?
✨ 主要特性
- 多語言支持:支持400多種語言,適用於廣泛的機器翻譯和多語言NLP任務。
- 架構優勢:基於T5架構,在多語言處理方面表現出色。
- 競爭力強:與規模大得多的模型相比也具有競爭力。
📦 安裝指南
使用Python包安裝
要使用該模型,你需要安裝以下Python包:
pip install transformers accelerate sentencepiece protobuf
💻 使用示例
基礎用法
from transformers import T5ForConditionalGeneration, T5Tokenizer
model_name = 'jbochi/madlad400-3b-mt'
model = T5ForConditionalGeneration.from_pretrained(model_name, device_map="auto")
tokenizer = T5Tokenizer.from_pretrained(model_name)
text = "<2pt> I love pizza!"
input_ids = tokenizer(text, return_tensors="pt").input_ids.to(model.device)
outputs = model.generate(input_ids=input_ids)
tokenizer.decode(outputs[0], skip_special_tokens=True)
# Eu adoro pizza!
高級用法
使用Candle運行模型:
$ cargo run --example t5 --release -- \
--model-id "jbochi/madlad400-3b-mt" \
--prompt "<2de> How are you, my friend?" \
--decode --temperature 0
使用量化模型:
cargo run --example quantized-t5 --release -- \
--model-id "jbochi/madlad400-3b-mt" --weight-file "model-q4k.gguf" \
--prompt "<2de> How are you, my friend?" \
--temperature 0
# ...
# Wie geht es dir, mein Freund?
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
模型類型 | 語言模型 |
支持語言 | 多語言(400 + 種語言) |
許可證 | Apache - 2.0 |
相關模型 | 所有MADLAD - 400檢查點 |
原始檢查點 | [所有原始MADLAD - 400檢查點](https://github.com/google - research/google - research/tree/master/madlad_400) |
更多信息資源 | 研究論文 [GitHub倉庫](https://github.com/google - research/t5x) [Hugging Face MADLAD - 400文檔(類似於T5)](https://huggingface.co/docs/transformers/model_doc/MADLAD - 400) - 待處理PR |
使用說明
直接使用和下游使用
- 主要預期用途:機器翻譯和400多種語言的多語言NLP任務。
- 主要預期用戶:研究社區。
超出範圍的使用
這些模型是在通用領域數據上訓練的,因此不能直接用於特定領域的模型。此外,這些研究模型尚未針對生產用例進行評估。
偏差、風險和侷限性
倫理考慮和風險
我們使用MADLAD - 400和公開可用的數據訓練這些模型,以創建支持400多種語言NLP的基線模型,重點關注大規模語料庫中代表性不足的語言。由於這些模型是使用網絡爬取的數據集訓練的,儘管進行了廣泛的預處理,但這些數據集仍可能包含敏感、冒犯性或其他低質量的內容,因此底層訓練數據的這些問題仍可能導致模型性能差異以及某些領域的有毒(或其他有問題)輸出。此外,大型模型是兩用技術,其使用和開發存在特定風險。我們建議讀者參考Weidinger等人或Bommasani等人撰寫的調查,以更詳細地討論這些風險,並參考Liebling等人的文章,以全面討論機器翻譯系統的風險。
已知侷限性
更多信息待補充。
敏感使用
更多信息待補充。
訓練詳情
訓練數據
對於機器翻譯和語言模型,均使用MADLAD - 400。對於機器翻譯模型,還使用了涵蓋157種語言的並行數據源組合。更多詳細信息請參閱論文。
訓練過程
更多詳細信息請參閱研究論文。
評估
測試數據、因素和指標
評估時,我們使用了WMT、NTREX、Flores - 200和Gatones數據集,詳情見論文的第4.3節。該模型的翻譯質量因語言而異,如論文所示,並且可能因領域而異,儘管我們尚未對此進行評估。
評估結果
   更多詳細信息請參閱研究論文。
環境影響
更多信息待補充。
🔧 技術細節
我們訓練了不同規模的模型:一個3B、32層參數的模型,一個7.2B、48層參數的模型和一個10.7B、32層參數的模型。我們在語言對之間共享模型的所有參數,並使用一個在編碼器和解碼器端共享256k標記的Sentence Piece模型。每個輸入句子在源句子前添加一個<2xx>標記,以指示目標語言。更多詳細信息請參閱研究論文。
📄 許可證
本模型使用Apache 2.0許可證。
📖 引用
如果你使用了該模型,請使用以下BibTeX引用:
@misc{kudugunta2023madlad400,
title={MADLAD - 400: A Multilingual And Document - Level Large Audited Dataset},
author={Sneha Kudugunta and Isaac Caswell and Biao Zhang and Xavier Garcia and Christopher A. Choquette - Choo and Katherine Lee and Derrick Xin and Aditya Kusupati and Romi Stella and Ankur Bapna and Orhan Firat},
year={2023},
eprint={2309.04662},
archivePrefix={arXiv},
primaryClass={cs.CL}
}



