🚀 MADLAD-400-3B-MT モデルカード
MADLAD-400-3B-MTは、T5アーキテクチャに基づく多言語機械翻訳モデルです。公開データを使用して450以上の言語をカバーする1兆トークンで学習されており、大幅に大きなモデルと競争力があります。
🚀 クイックスタート
このモデルの使い方については、以下のセクションで説明します。
✨ 主な機能
- 400以上の言語に対応した機械翻訳と多言語NLPタスクをサポート。
- 公開データを使用して学習され、大規模コーパスで過小評価されている言語に焦点を当てています。
📦 インストール
Pytorchモデルと transformers
を使用する場合
まず、必要なPythonパッケージをインストールします。
pip install transformers accelerate sentencepiece
コード例
from transformers import T5ForConditionalGeneration, T5Tokenizer
model_name = 'jbochi/madlad400-3b-mt'
model = T5ForConditionalGeneration.from_pretrained(model_name, device_map="auto")
tokenizer = T5Tokenizer.from_pretrained(model_name)
text = "<2pt> I love pizza!"
input_ids = tokenizer(text, return_tensors="pt").input_ids.to(model.device)
outputs = model.generate(input_ids=input_ids)
tokenizer.decode(outputs[0], skip_special_tokens=True)
Candleを使用する場合
candle を使った使用例です。
$ cargo run --example t5 --release -- \
--model-id "jbochi/madlad400-3b-mt" \
--prompt "<2de> How are you, my friend?" \
--decode --temperature 0
また、量子化モデルも提供しています(元の11.8GBファイルに対して1.65GB)。
cargo run --example quantized-t5 --release -- \
--model-id "jbochi/madlad400-3b-mt" --weight-file "model-q4k.gguf" \
--prompt "<2de> How are you, my friend?" \
--temperature 0
...
Wie geht es dir, mein Freund?
📚 ドキュメント
モデルの詳細
用途
直接的な使用と下流の使用
主な使用目的は、400以上の言語に対する機械翻訳と多言語NLPタスクです。主なユーザーは研究コミュニティです。
範囲外の使用
これらのモデルは一般ドメインのデータで学習されているため、ドメイン固有のモデルではそのままでは機能しません。また、これらの研究モデルは本番環境での使用について評価されていません。
バイアス、リスク、制限事項
これらのモデルがサポートする204の言語と機械翻訳およびフェデレーションラーニングの機械翻訳タスクでのみ評価しています。ユーザーは自分のユースケースに対してこのモデルの使用を慎重に検討する必要があります。
倫理的な考慮事項とリスク
これらのモデルは、MADLAD-400と公開データを使用して、400以上の言語のNLPをサポートするベースラインモデルを作成するために学習されています。大規模な前処理を行っても、ウェブクロールデータセットには敏感な、不快な、または低品質のコンテンツが含まれる可能性があるため、基礎となる学習データの問題がモデルのパフォーマンスの違いや特定のドメインでの有毒な(またはその他の問題のある)出力を引き起こす可能性があります。また、大規模モデルは二重用途の技術であり、その使用と開発に関連する特定のリスクがあります。これらのリスクの詳細な議論については、WeidingerらやBommasaniらによる調査を参照してください。機械翻訳システムのリスクについては、Lieblingらの詳細な議論を参照してください。
学習の詳細
様々なサイズのモデルを学習しています。3B、32層のパラメータモデル、7.2B、48層のパラメータモデル、および10.7B、32層のパラメータモデルです。モデルのすべてのパラメータを言語ペア間で共有し、エンコーダとデコーダの両方で256kトークンのSentence Pieceモデルを使用しています。各入力文には、ターゲット言語を示すために<2xx>トークンがソース文の前に付加されます。
学習データ
機械翻訳と言語モデルの両方にMADLAD-400を使用しています。機械翻訳モデルには、157の言語をカバーする並列データソースの組み合わせも使用しています。詳細は論文に記載されています。
学習手順
詳細については、研究論文を参照してください。
評価
テストデータ、要因、メトリクス
評価には、論文のセクション4.3で説明されているように、WMT、NTREX、Flores-200、およびGatonesデータセットを使用しました。
このモデルの翻訳品質は、論文に示されているように言語によって異なり、ドメインによっても異なる可能性がありますが、これについては評価していません。
結果

詳細については、研究論文を参照してください。
📄 ライセンス
このモデルはApache 2.0ライセンスの下で提供されています。
📚 引用
@misc{kudugunta2023madlad400,
title={MADLAD-400: A Multilingual And Document-Level Large Audited Dataset},
author={Sneha Kudugunta and Isaac Caswell and Biao Zhang and Xavier Garcia and Christopher A. Choquette-Choo and Katherine Lee and Derrick Xin and Aditya Kusupati and Romi Stella and Ankur Bapna and Orhan Firat},
year={2023},
eprint={2309.04662},
archivePrefix={arXiv},
primaryClass={cs.CL}
}