🚀 M2M100 1.2B
M2M100是一個多語言編碼器 - 解碼器(序列到序列)模型,專為多對多多語言翻譯而訓練。它能夠直接在100種語言的9900個翻譯方向之間進行翻譯。該模型在這篇論文中被提出,並首次在這個倉庫中發佈。
🚀 快速開始
要將文本翻譯成目標語言,需要將目標語言ID作為第一個生成的標記。可以通過將 forced_bos_token_id
參數傳遞給 generate
方法來實現這一點。
⚠️ 重要提示
M2M100Tokenizer
依賴於 sentencepiece
,因此在運行示例之前,請確保安裝它。可以通過運行 pip install sentencepiece
來安裝 sentencepiece
。
💻 使用示例
基礎用法
from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer
hi_text = "जीवन एक चॉकलेट बॉक्स की तरह है।"
chinese_text = "生活就像一盒巧克力。"
model = M2M100ForConditionalGeneration.from_pretrained("facebook/m2m100_1.2B")
tokenizer = M2M100Tokenizer.from_pretrained("facebook/m2m100_1.2B")
tokenizer.src_lang = "hi"
encoded_hi = tokenizer(hi_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_hi, forced_bos_token_id=tokenizer.get_lang_id("fr"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
tokenizer.src_lang = "zh"
encoded_zh = tokenizer(chinese_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_zh, forced_bos_token_id=tokenizer.get_lang_id("en"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
📚 詳細文檔
你可以在模型中心查找更多微調版本。
🔠 支持的語言
南非荷蘭語 (af)、阿姆哈拉語 (am)、阿拉伯語 (ar)、阿斯圖里亞斯語 (ast)、阿塞拜疆語 (az)、巴什基爾語 (ba)、白俄羅斯語 (be)、保加利亞語 (bg)、孟加拉語 (bn)、布列塔尼語 (br)、波斯尼亞語 (bs)、加泰羅尼亞語; 瓦倫西亞語 (ca)、宿務語 (ceb)、捷克語 (cs)、威爾士語 (cy)、丹麥語 (da)、德語 (de)、希臘語 (el)、英語 (en)、西班牙語 (es)、愛沙尼亞語 (et)、波斯語 (fa)、富拉語 (ff)、芬蘭語 (fi)、法語 (fr)、西弗里斯蘭語 (fy)、愛爾蘭語 (ga)、蓋爾語; 蘇格蘭蓋爾語 (gd)、加利西亞語 (gl)、古吉拉特語 (gu)、豪薩語 (ha)、希伯來語 (he)、印地語 (hi)、克羅地亞語 (hr)、海地克里奧爾語 (ht)、匈牙利語 (hu)、亞美尼亞語 (hy)、印尼語 (id)、伊博語 (ig)、伊洛卡諾語 (ilo)、冰島語 (is)、意大利語 (it)、日語 (ja)、爪哇語 (jv)、格魯吉亞語 (ka)、哈薩克語 (kk)、高棉語 (km)、卡納達語 (kn)、韓語 (ko)、盧森堡語 (lb)、幹達語 (lg)、林加拉語 (ln)、老撾語 (lo)、立陶宛語 (lt)、拉脫維亞語 (lv)、馬達加斯加語 (mg)、馬其頓語 (mk)、馬拉雅拉姆語 (ml)、蒙古語 (mn)、馬拉地語 (mr)、馬來語 (ms)、緬甸語 (my)、尼泊爾語 (ne)、荷蘭語 (nl)、挪威語 (no)、北索托語 (ns)、奧克語 (oc)、奧里亞語 (or)、旁遮普語 (pa)、波蘭語 (pl)、普什圖語 (ps)、葡萄牙語 (pt)、羅馬尼亞語 (ro)、俄語 (ru)、信德語 (sd)、僧伽羅語 (si)、斯洛伐克語 (sk)、斯洛文尼亞語 (sl)、索馬里語 (so)、阿爾巴尼亞語 (sq)、塞爾維亞語 (sr)、斯瓦蒂語 (ss)、巽他語 (su)、瑞典語 (sv)、斯瓦希里語 (sw)、泰米爾語 (ta)、泰語 (th)、他加祿語 (tl)、茨瓦納語 (tn)、土耳其語 (tr)、烏克蘭語 (uk)、烏爾都語 (ur)、烏茲別克語 (uz)、越南語 (vi)、沃洛夫語 (wo)、科薩語 (xh)、意第緒語 (yi)、約魯巴語 (yo)、中文 (zh)、祖魯語 (zu)
📄 許可證
本項目採用MIT許可證。
📖 BibTeX引用
@misc{fan2020englishcentric,
title={Beyond English-Centric Multilingual Machine Translation},
author={Angela Fan and Shruti Bhosale and Holger Schwenk and Zhiyi Ma and Ahmed El-Kishky and Siddharth Goyal and Mandeep Baines and Onur Celebi and Guillaume Wenzek and Vishrav Chaudhary and Naman Goyal and Tom Birch and Vitaliy Liptchinsky and Sergey Edunov and Edouard Grave and Michael Auli and Armand Joulin},
year={2020},
eprint={2010.11125},
archivePrefix={arXiv},
primaryClass={cs.CL}
}