🚀 mBART-50
mBART-50 是一個多語言序列到序列模型,通過“多語言去噪預訓練”目標進行預訓練。它在 Multilingual Translation with Extensible Multilingual Pretraining and Finetuning 論文中被提出,可用於創建多語言翻譯模型。
🚀 快速開始
mbart-large-50
是預訓練模型,主要用於在翻譯任務上進行微調,也能在其他多語言序列到序列任務上進行微調。你可以在 模型中心 查找微調版本。
以下是使用示例:
from transformers import MBartForConditionalGeneration, MBart50TokenizerFast
model = MBartForConditionalGeneration.from_pretrained("facebook/mbart-large-50")
tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50", src_lang="en_XX", tgt_lang="ro_RO")
src_text = " UN Chief Says There Is No Military Solution in Syria"
tgt_text = "Şeful ONU declară că nu există o soluţie militară în Siria"
model_inputs = tokenizer(src_text, return_tensors="pt")
with tokenizer.as_target_tokenizer():
labels = tokenizer(tgt_text, return_tensors="pt").input_ids
model(**model_inputs, labels=labels)
✨ 主要特性
- 多語言支持:mBART-50 在原始 mBART 模型基礎上進行擴展,支持 50 種語言的多語言機器翻譯。
- 多語言微調:通過多語言微調創建多語言翻譯模型,可同時在多個方向上對預訓練模型進行微調。
- 多語言去噪預訓練:採用特殊的去噪預訓練目標,對源文檔進行噪聲處理,然後讓模型重構原始文本。
📚 詳細文檔
模型描述
mBART-50 是一個多語言序列到序列模型,旨在展示可以通過多語言微調創建多語言翻譯模型。與在單一方向上進行微調不同,它會同時在多個方向上對預訓練模型進行微調。mBART-50 基於原始 mBART 模型創建,並擴展支持了額外的 25 種語言,從而實現 50 種語言的多語言機器翻譯。下面將解釋其預訓練目標。
多語言去噪預訓練:該模型通過連接數據來整合 N 種語言:D = {D1, ..., DN }
,其中每個 Di 是語言 i
的單語文檔集合。源文檔使用兩種方案進行噪聲處理:一是隨機打亂原始句子的順序;二是一種新穎的填充方案,即將文本片段替換為單個掩碼標記。然後,模型的任務是重構原始文本。根據泊松分佈 (λ = 3.5)
隨機採樣片段長度,對每個實例的 35% 的單詞進行掩碼處理。解碼器輸入是偏移一個位置的原始文本。使用語言 id 符號 LID
作為初始標記來預測句子。
預期用途和限制
mbart-large-50
是預訓練模型,主要用於在翻譯任務上進行微調,也可在其他多語言序列到序列任務上進行微調。你可以在 模型中心 查找微調版本。
訓練
由於該模型是多語言的,它期望序列採用不同的格式。在源文本和目標文本中,都使用特殊的語言 id 標記作為前綴。文本格式為 [lang_code] X [eos]
,其中 X
分別是源文本或目標文本,lang_code
對於源文本是 source_lang_code
,對於目標文本是 tgt_lang_code
。bos
從不使用。一旦示例以這種格式準備好,就可以像訓練其他序列到序列模型一樣對其進行訓練。
支持的語言
阿拉伯語 (ar_AR)、捷克語 (cs_CZ)、德語 (de_DE)、英語 (en_XX)、西班牙語 (es_XX)、愛沙尼亞語 (et_EE)、芬蘭語 (fi_FI)、法語 (fr_XX)、古吉拉特語 (gu_IN)、印地語 (hi_IN)、意大利語 (it_IT)、日語 (ja_XX)、哈薩克語 (kk_KZ)、韓語 (ko_KR)、立陶宛語 (lt_LT)、拉脫維亞語 (lv_LV)、緬甸語 (my_MM)、尼泊爾語 (ne_NP)、荷蘭語 (nl_XX)、羅馬尼亞語 (ro_RO)、俄語 (ru_RU)、僧伽羅語 (si_LK)、土耳其語 (tr_TR)、越南語 (vi_VN)、中文 (zh_CN)、南非荷蘭語 (af_ZA)、阿塞拜疆語 (az_AZ)、孟加拉語 (bn_IN)、波斯語 (fa_IR)、希伯來語 (he_IL)、克羅地亞語 (hr_HR)、印尼語 (id_ID)、格魯吉亞語 (ka_GE)、高棉語 (km_KH)、馬其頓語 (mk_MK)、馬拉雅拉姆語 (ml_IN)、蒙古語 (mn_MN)、馬拉地語 (mr_IN)、波蘭語 (pl_PL)、普什圖語 (ps_AF)、葡萄牙語 (pt_XX)、瑞典語 (sv_SE)、斯瓦希里語 (sw_KE)、泰米爾語 (ta_IN)、泰盧固語 (te_IN)、泰語 (th_TH)、他加祿語 (tl_XX)、烏克蘭語 (uk_UA)、烏爾都語 (ur_PK)、科薩語 (xh_ZA)、加利西亞語 (gl_ES)、斯洛文尼亞語 (sl_SI)
BibTeX 引用和引用信息
@article{tang2020multilingual,
title={Multilingual Translation with Extensible Multilingual Pretraining and Finetuning},
author={Yuqing Tang and Chau Tran and Xian Li and Peng-Jen Chen and Naman Goyal and Vishrav Chaudhary and Jiatao Gu and Angela Fan},
year={2020},
eprint={2008.00401},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
本項目採用 MIT 許可證。