M2M100_418M開源多語言翻譯模型 - 支持100種語言超9900個翻譯方向

首頁

M2m100 418M

由facebook開發

M2M100是一個多語言編碼器-解碼器模型，支持100種語言的9900個翻譯方向

機器翻譯支持多種語言開源協議:MIT #百種語言互譯 #無需中間語 #端到端翻譯

下載量 1.6M

發布時間 : 3/2/2022

模型概述

該模型是一個多對多的多語言機器翻譯模型，能夠直接在100種語言之間進行翻譯，無需通過英語中轉。

模型特點

多語言直接翻譯

支持100種語言之間的直接翻譯，無需通過英語中轉

大規模語言覆蓋

支持9900個翻譯方向，涵蓋全球主要語言

高效翻譯

採用編碼器-解碼器架構，實現高效的序列到序列翻譯

模型能力

多語言文本翻譯

跨語言文本轉換

大規模語言處理

使用案例

翻譯服務

多語言網站翻譯

將網站內容自動翻譯成多種語言

支持100種語言的互譯

跨語言交流

即時翻譯不同語言用戶之間的交流內容

實現無障礙跨語言溝通

內容本地化

產品文檔本地化

將產品文檔翻譯成目標市場語言

提高產品在不同地區的可用性

🚀 M2M100 418M

M2M100是一個多語言編碼器 - 解碼器（序列到序列）模型，專為多對多多語言翻譯而訓練。它能解決不同語言之間的直接翻譯問題，實現100種語言的9900個翻譯方向，為跨語言交流提供了強大的支持。

🚀 快速開始

M2M100是為多對多多語言翻譯而訓練的多語言編碼器 - 解碼器（序列到序列）模型。它在這篇論文中被提出，並首次在這個倉庫中發佈。

該模型可以直接在100種語言的9900個翻譯方向之間進行翻譯。要翻譯成目標語言，需將目標語言ID強制作為第一個生成的標記。若要將目標語言ID強制作為第一個生成的標記，可將 forced_bos_token_id 參數傳遞給 generate 方法。

⚠️ 重要提示

M2M100Tokenizer 依賴於 sentencepiece，因此在運行示例之前，請確保已安裝它。

💡 使用建議

要安裝 sentencepiece，請運行 pip install sentencepiece

💻 使用示例

基礎用法

from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer

hi_text = "जीवन एक चॉकलेट बॉक्स की तरह है।"
chinese_text = "生活就像一盒巧克力。"

model = M2M100ForConditionalGeneration.from_pretrained("facebook/m2m100_418M")
tokenizer = M2M100Tokenizer.from_pretrained("facebook/m2m100_418M")

# translate Hindi to French
tokenizer.src_lang = "hi"
encoded_hi = tokenizer(hi_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_hi, forced_bos_token_id=tokenizer.get_lang_id("fr"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# => "La vie est comme une boîte de chocolat."

# translate Chinese to English
tokenizer.src_lang = "zh"
encoded_zh = tokenizer(chinese_text, return_tensors="pt")
generated_tokens = model.generate(**encoded_zh, forced_bos_token_id=tokenizer.get_lang_id("en"))
tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
# => "Life is like a box of chocolate."

你可以查看模型中心以尋找更多微調版本。

📚 詳細文檔

支持的語言

該模型支持以下語言：南非荷蘭語（af）、阿姆哈拉語（am）、阿拉伯語（ar）、阿斯圖里亞斯語（ast）、阿塞拜疆語（az）、巴什基爾語（ba）、白俄羅斯語（be）、保加利亞語（bg）、孟加拉語（bn）、布列塔尼語（br）、波斯尼亞語（bs）、加泰羅尼亞語；瓦倫西亞語（ca）、宿務語（ceb）、捷克語（cs）、威爾士語（cy）、丹麥語（da）、德語（de）、希臘語（el）、英語（en）、西班牙語（es）、愛沙尼亞語（et）、波斯語（fa）、富拉語（ff）、芬蘭語（fi）、法語（fr）、西弗里斯蘭語（fy）、愛爾蘭語（ga）、蘇格蘭蓋爾語（gd）、加利西亞語（gl）、古吉拉特語（gu）、豪薩語（ha）、希伯來語（he）、印地語（hi）、克羅地亞語（hr）、海地克里奧爾語（ht）、匈牙利語（hu）、亞美尼亞語（hy）、印尼語（id）、伊博語（ig）、伊洛卡諾語（ilo）、冰島語（is）、意大利語（it）、日語（ja）、爪哇語（jv）、格魯吉亞語（ka）、哈薩克語（kk）、高棉語（km）、卡納達語（kn）、韓語（ko）、盧森堡語（lb）、幹達語（lg）、林加拉語（ln）、老撾語（lo）、立陶宛語（lt）、拉脫維亞語（lv）、馬達加斯加語（mg）、馬其頓語（mk）、馬拉雅拉姆語（ml）、蒙古語（mn）、馬拉地語（mr）、馬來語（ms）、緬甸語（my）、尼泊爾語（ne）、荷蘭語；佛蘭芒語（nl）、挪威語（no）、北索托語（ns）、奧克語（1500年後）（oc）、奧里亞語（or）、旁遮普語（pa）、波蘭語（pl）、普什圖語（ps）、葡萄牙語（pt）、羅馬尼亞語；摩爾多瓦語（ro）、俄語（ru）、信德語（sd）、僧伽羅語（si）、斯洛伐克語（sk）、斯洛文尼亞語（sl）、索馬里語（so）、阿爾巴尼亞語（sq）、塞爾維亞語（sr）、斯瓦蒂語（ss）、巽他語（su）、瑞典語（sv）、斯瓦希里語（sw）、泰米爾語（ta）、泰語（th）、他加祿語（tl）、茨瓦納語（tn）、土耳其語（tr）、烏克蘭語（uk）、烏爾都語（ur）、烏茲別克語（uz）、越南語（vi）、沃洛夫語（wo）、科薩語（xh）、意第緒語（yi）、約魯巴語（yo）、中文（zh）、祖魯語（zu）

BibTeX引用和引用信息

@misc{fan2020englishcentric,
      title={Beyond English-Centric Multilingual Machine Translation}, 
      author={Angela Fan and Shruti Bhosale and Holger Schwenk and Zhiyi Ma and Ahmed El-Kishky and Siddharth Goyal and Mandeep Baines and Onur Celebi and Guillaume Wenzek and Vishrav Chaudhary and Naman Goyal and Tom Birch and Vitaliy Liptchinsky and Sergey Edunov and Edouard Grave and Michael Auli and Armand Joulin},
      year={2020},
      eprint={2010.11125},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}