語言:
- bs
- en
- hr
- sh
- sr
語言_bcp47:
- bs_Latn
- sr_Cyrl
- sr_Latn
標籤:
許可證: cc-by-4.0
模型索引:
- 名稱: opus-mt-tc-base-en-sh
結果:
- 任務:
名稱: 翻譯 eng-hrv
類型: 翻譯
參數: eng-hrv
數據集:
名稱: flores200-dev
類型: flores200-dev
參數: eng-hrv
指標:
- 名稱: BLEU
類型: bleu
值: 28.1
- 名稱: chr-F
類型: chrf
值: 0.57963
- 任務:
名稱: 翻譯 eng-srp_Cyrl
類型: 翻譯
參數: eng-srp_Cyrl
數據集:
名稱: flores200-dev
類型: flores200-dev
參數: eng-srp_Cyrl
指標:
- 名稱: BLEU
類型: bleu
值: 32.2
- 名稱: chr-F
類型: chrf
值: 0.60096
- 任務:
名稱: 翻譯 eng-hrv
類型: 翻譯
參數: eng-hrv
數據集:
名稱: flores200-devtest
類型: flores200-devtest
參數: eng-hrv
指標:
- 名稱: BLEU
類型: bleu
值: 28.9
- 名稱: chr-F
類型: chrf
值: 0.58652
- 任務:
名稱: 翻譯 eng-srp_Cyrl
類型: 翻譯
參數: eng-srp_Cyrl
數據集:
名稱: flores200-devtest
類型: flores200-devtest
參數: eng-srp_Cyrl
指標:
- 名稱: BLEU
類型: bleu
值: 31.7
- 名稱: chr-F
類型: chrf
值: 0.59874
- 任務:
名稱: 翻譯 eng-hrv
類型: 翻譯
參數: eng-hrv
數據集:
名稱: flores101-devtest
類型: flores_101
參數: eng hrv devtest
指標:
- 名稱: BLEU
類型: bleu
值: 28.7
- 名稱: chr-F
類型: chrf
值: 0.586
- 任務:
名稱: 翻譯 eng-srp_Cyrl
類型: 翻譯
參數: eng-srp_Cyrl
數據集:
名稱: flores101-devtest
類型: flores_101
參數: eng srp_Cyrl devtest
指標:
- 名稱: BLEU
類型: bleu
值: 31.7
- 名稱: chr-F
類型: chrf
值: 0.59874
- 任務:
名稱: 翻譯 eng-bos_Latn
類型: 翻譯
參數: eng-bos_Latn
數據集:
名稱: tatoeba-test-v2021-08-07
類型: tatoeba_mt
參數: eng-bos_Latn
指標:
- 名稱: BLEU
類型: bleu
值: 46.3
- 名稱: chr-F
類型: chrf
值: 0.666
- 任務:
名稱: 翻譯 eng-hbs
類型: 翻譯
參數: eng-hbs
數據集:
名稱: tatoeba-test-v2021-08-07
類型: tatoeba_mt
參數: eng-hbs
指標:
- 名稱: BLEU
類型: bleu
值: 42.1
- 名稱: chr-F
類型: chrf
值: 0.631
- 任務:
名稱: 翻譯 eng-hrv
類型: 翻譯
參數: eng-hrv
數據集:
名稱: tatoeba-test-v2021-08-07
類型: tatoeba_mt
參數: eng-hrv
指標:
- 名稱: BLEU
類型: bleu
值: 49.7
- 名稱: chr-F
類型: chrf
值: 0.691
- 任務:
名稱: 翻譯 eng-srp_Cyrl
類型: 翻譯
參數: eng-srp_Cyrl
數據集:
名稱: tatoeba-test-v2021-08-07
類型: tatoeba_mt
參數: eng-srp_Cyrl
指標:
- 名稱: BLEU
類型: bleu
值: 45.1
- 名稱: chr-F
類型: chrf
值: 0.645
- 任務:
名稱: 翻譯 eng-srp_Latn
類型: 翻譯
參數: eng-srp_Latn
數據集:
名稱: tatoeba-test-v2021-08-07
類型: tatoeba_mt
參數: eng-srp_Latn
指標:
- 名稱: BLEU
類型: bleu
值: 39.8
- 名稱: chr-F
類型: chrf
值: 0.613
opus-mt-tc-base-en-sh
目錄
模型詳情
用於從英語(en)翻譯至塞爾維亞-克羅地亞語(sh)的神經機器翻譯模型。
該模型是OPUS-MT項目的一部分,旨在使神經機器翻譯模型在全球多種語言中廣泛可用和易於獲取。所有模型最初均使用Marian NMT這一高效純C++編寫的NMT實現框架進行訓練。模型已通過huggingface的transformers庫轉換為pyTorch格式。訓練數據取自OPUS,訓練流程採用OPUS-MT-train的程序。
模型描述:
- 開發團隊: 赫爾辛基大學語言技術研究組
- 模型類型: 翻譯(transformer-align)
- 發佈日期: 2021-04-20
- 許可證: CC-BY-4.0
- 語言:
- 源語言: eng
- 目標語言: bos_Latn hbs hrv srp_Cyrl srp_Latn
- 語言對: eng-bos_Latn eng-hbs eng-hrv eng-srp_Cyrl eng-srp_Latn
- 有效目標語言標籤: >>bos_Cyrl<< >>bos_Latn<< >>cnr<< >>cnr_Latn<< >>hbs<< >>hbs_Cyrl<< >>hrv<< >>srp_Cyrl<< >>srp_Latn<<
- 原始模型: opus+bt-2021-04-20.zip
- 更多信息資源:
這是一個多語言翻譯模型,支持多個目標語言。需要在句首添加語言標記,格式為>>id<<
(id = 有效目標語言ID),例如>>bos_Latn<<
用途
該模型可用於翻譯和文本生成。
風險、侷限性和偏見
內容警告:讀者應意識到,模型訓練使用的各種公共數據集可能包含令人不安、冒犯性的內容,並可能傳播歷史和當前的刻板印象。
大量研究探討了語言模型中的偏見和公平性問題(參見,例如Sheng et al. (2021)和Bender et al. (2021))。
如何開始使用該模型
簡短示例代碼:
from transformers import MarianMTModel, MarianTokenizer
src_text = [
">>hrv<< You're about to make a very serious mistake.",
">>hbs<< I've just been too busy."
]
model_name = "pytorch-models/opus-mt-tc-base-en-sh"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))
for t in translated:
print( tokenizer.decode(t, skip_special_tokens=True) )
您也可以使用transformers的pipeline功能調用OPUS-MT模型,例如:
from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-base-en-sh")
print(pipe(">>hrv<< You're about to make a very serious mistake."))
訓練
評估
語言對 |
測試集 |
chr-F |
BLEU |
句子數 |
詞數 |
eng-bos_Latn |
tatoeba-test-v2021-08-07 |
0.666 |
46.3 |
301 |
1650 |
eng-hbs |
tatoeba-test-v2021-08-07 |
0.631 |
42.1 |
10017 |
63927 |
eng-hrv |
tatoeba-test-v2021-08-07 |
0.691 |
49.7 |
1480 |
9396 |
eng-srp_Cyrl |
tatoeba-test-v2021-08-07 |
0.645 |
45.1 |
1580 |
9152 |
eng-srp_Latn |
tatoeba-test-v2021-08-07 |
0.613 |
39.8 |
6656 |
43729 |
eng-hrv |
flores101-devtest |
0.586 |
28.7 |
1012 |
22423 |
eng-hrv |
flores200-dev |
0.57963 |
28.1 |
997 |
21567 |
eng-hrv |
flores200-devtest |
0.58652 |
28.9 |
1012 |
22423 |
eng-srp_Cyrl |
flores101-devtest |
0.59874 |
31.7 |
1012 |
234 |