🚀 opus-mt-tc-big-zls-en
このモデルは、南スラブ語 (zls) から英語 (en) への翻訳を行うニューラル機械翻訳モデルです。OPUS-MTプロジェクトの一部であり、世界中の多くの言語に対してニューラル機械翻訳モデルを広く利用可能にする取り組みの一環です。
🚀 クイックスタート
このモデルは、南スラブ語から英語への翻訳を行うために使用できます。以下のセクションでは、モデルの情報、使用方法、ベンチマーク結果などについて説明します。
✨ 主な機能
📦 インストール
このREADMEには明示的なインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
基本的な使用法
from transformers import MarianMTModel, MarianTokenizer
src_text = [
"Да не би случайно Том да остави Мери да кара колата?",
"Какво е времето днес?"
]
model_name = "pytorch-models/opus-mt-tc-big-zls-en"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))
for t in translated:
print( tokenizer.decode(t, skip_special_tokens=True) )
高度な使用法
from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-zls-en")
print(pipe("Да не би случайно Том да остави Мери да кара колата?"))
📚 ドキュメント
モデル情報
ベンチマーク
言語ペア |
テストセット |
chr-F |
BLEU |
文数 |
単語数 |
bos_Latn-eng |
tatoeba-test-v2021-08-07 |
0.79339 |
66.5 |
301 |
1826 |
bul-eng |
tatoeba-test-v2021-08-07 |
0.72656 |
59.3 |
10000 |
71872 |
hbs-eng |
tatoeba-test-v2021-08-07 |
0.71783 |
57.3 |
10017 |
68934 |
hrv-eng |
tatoeba-test-v2021-08-07 |
0.74066 |
59.2 |
1480 |
10620 |
mkd-eng |
tatoeba-test-v2021-08-07 |
0.70043 |
57.4 |
10010 |
65667 |
slv-eng |
tatoeba-test-v2021-08-07 |
0.39534 |
23.5 |
2495 |
16940 |
srp_Cyrl-eng |
tatoeba-test-v2021-08-07 |
0.67628 |
47.0 |
1580 |
10181 |
srp_Latn-eng |
tatoeba-test-v2021-08-07 |
0.71878 |
58.5 |
6656 |
46307 |
bul-eng |
flores101-devtest |
0.67375 |
42.0 |
1012 |
24721 |
hrv-eng |
flores101-devtest |
0.63914 |
37.1 |
1012 |
24721 |
mkd-eng |
flores101-devtest |
0.67444 |
43.2 |
1012 |
24721 |
slv-eng |
flores101-devtest |
0.62087 |
35.2 |
1012 |
24721 |
srp_Cyrl-eng |
flores101-devtest |
0.67810 |
36.8 |
1012 |
24721 |
ベンチマーク結果のリンク
謝辞
この研究は、European Language Gridのpilot project 2866、FoTranプロジェクト(European Research Council (ERC) のEuropean Union’s Horizon 2020 research and innovation programme (grant agreement No 771113) の助成を受けています)、およびMeMADプロジェクト(European Union’s Horizon 2020 Research and Innovation Programme under grant agreement No 780069 の助成を受けています)によって支援されています。また、CSC -- IT Center for Science(フィンランド)から提供された計算資源とITインフラストラクチャに感謝します。
モデル変換情報
- transformersバージョン: 4.16.2
- OPUS-MTのgitハッシュ: 3405783
- 変換時間: Wed Apr 13 20:12:26 EEST 2022
- 変換マシン: LM0-400-22516.local
引用情報
@inproceedings{tiedemann-thottingal-2020-opus,
title = "{OPUS}-{MT} {--} Building open translation services for the World",
author = {Tiedemann, J{\"o}rg and Thottingal, Santhosh},
booktitle = "Proceedings of the 22nd Annual Conference of the European Association for Machine Translation",
month = nov,
year = "2020",
address = "Lisboa, Portugal",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2020.eamt-1.61",
pages = "479--480",
}
@inproceedings{tiedemann-2020-tatoeba,
title = "The Tatoeba Translation Challenge {--} Realistic Data Sets for Low Resource and Multilingual {MT}",
author = {Tiedemann, J{\"o}rg},
booktitle = "Proceedings of the Fifth Conference on Machine Translation",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.wmt-1.139",
pages = "1174--1182",
}
📄 ライセンス
このモデルは、CC BY 4.0ライセンスの下で提供されています。