🚀 M2M100 418M
M2M100是一個多語言編碼器 - 解碼器(序列到序列)模型,專為多對多多語言翻譯而訓練。它能解決不同語言之間的直接翻譯問題,實現100種語言的9900個翻譯方向,為跨語言交流提供了強大的支持。
🚀 快速開始
M2M100是為多對多多語言翻譯而訓練的多語言編碼器 - 解碼器(序列到序列)模型。它在這篇論文中被提出,並首次在這個倉庫中發佈。
該模型可以直接在100種語言的9900個翻譯方向之間進行翻譯。要翻譯成目標語言,需將目標語言ID強制作為第一個生成的標記。若要將目標語言ID強制作為第一個生成的標記,可將 forced_bos_token_id
參數傳遞給 generate
方法。
⚠️ 重要提示
M2M100Tokenizer
依賴於 sentencepiece
,因此在運行示例之前,請確保已安裝它。
💡 使用建議
要安裝 sentencepiece
,請運行 pip install sentencepiece
💻 使用示例
基礎用法
from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer
hi_text = "जीवन एक चॉकलेट बॉक्स की तरह है।"
chinese_text = "生活就像一盒巧克力。"
model = M2M100ForConditionalGeneration.from_pretrained("facebook/m2m100_418M")
tokenizer = M2M100Tokenizer.from_pretrained("facebook/m2m100_418M")
tokenizer.src_lang = "hi"
encoded_hi = tokenizer(hi_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_hi, forced_bos_token_id=tokenizer.get_lang_id("fr"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
tokenizer.src_lang = "zh"
encoded_zh = tokenizer(chinese_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_zh, forced_bos_token_id=tokenizer.get_lang_id("en"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
你可以查看模型中心以尋找更多微調版本。
📚 詳細文檔
支持的語言
該模型支持以下語言:南非荷蘭語(af)、阿姆哈拉語(am)、阿拉伯語(ar)、阿斯圖里亞斯語(ast)、阿塞拜疆語(az)、巴什基爾語(ba)、白俄羅斯語(be)、保加利亞語(bg)、孟加拉語(bn)、布列塔尼語(br)、波斯尼亞語(bs)、加泰羅尼亞語;瓦倫西亞語(ca)、宿務語(ceb)、捷克語(cs)、威爾士語(cy)、丹麥語(da)、德語(de)、希臘語(el)、英語(en)、西班牙語(es)、愛沙尼亞語(et)、波斯語(fa)、富拉語(ff)、芬蘭語(fi)、法語(fr)、西弗里斯蘭語(fy)、愛爾蘭語(ga)、蘇格蘭蓋爾語(gd)、加利西亞語(gl)、古吉拉特語(gu)、豪薩語(ha)、希伯來語(he)、印地語(hi)、克羅地亞語(hr)、海地克里奧爾語(ht)、匈牙利語(hu)、亞美尼亞語(hy)、印尼語(id)、伊博語(ig)、伊洛卡諾語(ilo)、冰島語(is)、意大利語(it)、日語(ja)、爪哇語(jv)、格魯吉亞語(ka)、哈薩克語(kk)、高棉語(km)、卡納達語(kn)、韓語(ko)、盧森堡語(lb)、幹達語(lg)、林加拉語(ln)、老撾語(lo)、立陶宛語(lt)、拉脫維亞語(lv)、馬達加斯加語(mg)、馬其頓語(mk)、馬拉雅拉姆語(ml)、蒙古語(mn)、馬拉地語(mr)、馬來語(ms)、緬甸語(my)、尼泊爾語(ne)、荷蘭語;佛蘭芒語(nl)、挪威語(no)、北索托語(ns)、奧克語(1500年後)(oc)、奧里亞語(or)、旁遮普語(pa)、波蘭語(pl)、普什圖語(ps)、葡萄牙語(pt)、羅馬尼亞語;摩爾多瓦語(ro)、俄語(ru)、信德語(sd)、僧伽羅語(si)、斯洛伐克語(sk)、斯洛文尼亞語(sl)、索馬里語(so)、阿爾巴尼亞語(sq)、塞爾維亞語(sr)、斯瓦蒂語(ss)、巽他語(su)、瑞典語(sv)、斯瓦希里語(sw)、泰米爾語(ta)、泰語(th)、他加祿語(tl)、茨瓦納語(tn)、土耳其語(tr)、烏克蘭語(uk)、烏爾都語(ur)、烏茲別克語(uz)、越南語(vi)、沃洛夫語(wo)、科薩語(xh)、意第緒語(yi)、約魯巴語(yo)、中文(zh)、祖魯語(zu)
BibTeX引用和引用信息
@misc{fan2020englishcentric,
title={Beyond English-Centric Multilingual Machine Translation},
author={Angela Fan and Shruti Bhosale and Holger Schwenk and Zhiyi Ma and Ahmed El-Kishky and Siddharth Goyal and Mandeep Baines and Onur Celebi and Guillaume Wenzek and Vishrav Chaudhary and Naman Goyal and Tom Birch and Vitaliy Liptchinsky and Sergey Edunov and Edouard Grave and Michael Auli and Armand Joulin},
year={2020},
eprint={2010.11125},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 許可證
本項目採用MIT許可證。