opus-mt-tc-big-en-cat_oci_spa開源翻譯模型 - 免費實現英到加泰羅尼亞等多語言翻譯

首頁

Opus Mt Tc Big En Cat Oci Spa

由Helsinki-NLP開發

這是一個用於從英語翻譯到加泰羅尼亞語、奧克語和西班牙語的神經機器翻譯模型，屬於OPUS-MT項目的一部分。

機器翻譯

Transformers

支持多種語言#多語言翻譯 #高BLEU評分 #加泰羅尼亞語支持

下載量 30

發布時間 : 4/13/2022

模型概述

該模型專注於英語到加泰羅尼亞語、奧克語和西班牙語的翻譯任務，採用transformer-big架構，訓練數據來自OPUS語料庫。

模型特點

多語言支持

支持從英語到加泰羅尼亞語、奧克語和西班牙語三種語言的翻譯。

高性能翻譯

在多個測試集上表現出色，如加泰羅尼亞語翻譯BLEU值達47.8，西班牙語翻譯BLEU值最高達57.0。

開源許可

採用cc-by-4.0許可證，允許商業和研究用途。

模型能力

英語到加泰羅尼亞語翻譯

英語到奧克語翻譯

英語到西班牙語翻譯

多語言機器翻譯

使用案例

語言翻譯服務

多語言內容翻譯

將英語內容翻譯成加泰羅尼亞語、奧克語或西班牙語，適用於多語言網站或應用。

在tatoeba-test數據集上，英語到西班牙語翻譯BLEU值達57.0。

學術研究支持

為語言學研究或機器翻譯研究提供高質量的翻譯基準。

在flores101-devtest數據集上，英語到加泰羅尼亞語翻譯BLEU值達41.5。

新聞翻譯

新聞內容本地化

將英語新聞翻譯成西班牙語等目標語言。

在newstest2012數據集上，英語到西班牙語翻譯BLEU值達39.6。

🚀 opus-mt-tc-big-en-cat_oci_spa

這是一個用於將英語（en）翻譯成加泰羅尼亞語、奧克語和西班牙語（cat+oci+spa）的神經機器翻譯模型。該模型屬於OPUS-MT項目的一部分，旨在讓神經機器翻譯模型廣泛適用於世界上多種語言。

🚀 快速開始

本模型是 OPUS-MT項目的一部分，該項目致力於讓神經機器翻譯模型在世界上多種語言中廣泛可用。所有模型最初都使用 Marian NMT 這一出色的框架進行訓練，它是一個用純C++編寫的高效神經機器翻譯實現。這些模型通過huggingface的transformers庫轉換為pyTorch格式。訓練數據來自 OPUS，訓練流程採用 OPUS-MT-train 的方法。

@inproceedings{tiedemann-thottingal-2020-opus,
    title = "{OPUS}-{MT} {--} Building open translation services for the World",
    author = {Tiedemann, J{\"o}rg  and Thottingal, Santhosh},
    booktitle = "Proceedings of the 22nd Annual Conference of the European Association for Machine Translation",
    month = nov,
    year = "2020",
    address = "Lisboa, Portugal",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2020.eamt-1.61",
    pages = "479--480",
}

@inproceedings{tiedemann-2020-tatoeba,
    title = "The Tatoeba Translation Challenge {--} Realistic Data Sets for Low Resource and Multilingual {MT}",
    author = {Tiedemann, J{\"o}rg},
    booktitle = "Proceedings of the Fifth Conference on Machine Translation",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.wmt-1.139",
    pages = "1174--1182",
}

✨ 主要特性

支持將英語翻譯成加泰羅尼亞語、奧克語和西班牙語。
屬於OPUS-MT項目，利用Marian NMT框架訓練，後轉換為pyTorch格式。
訓練數據來自OPUS，採用OPUS-MT-train的訓練流程。

📦 安裝指南

文檔中未提及具體安裝步驟，暫不提供。

💻 使用示例

基礎用法

from transformers import MarianMTModel, MarianTokenizer

src_text = [
    ">>spa<< Why do you want Tom to go there with me?",
    ">>spa<< She forced him to eat spinach."
]

model_name = "pytorch-models/opus-mt-tc-big-en-cat_oci_spa"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))

for t in translated:
    print( tokenizer.decode(t, skip_special_tokens=True) )

# expected output:
#     ¿Por qué quieres que Tom vaya conmigo?
#     Ella lo obligó a comer espinacas.

高級用法

from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-en-cat_oci_spa")
print(pipe(">>spa<< Why do you want Tom to go there with me?"))

# expected output: ¿Por qué quieres que Tom vaya conmigo?

📚 詳細文檔

模型信息

屬性	詳情
發佈時間	2022-03-13
源語言	英語（eng）
目標語言	加泰羅尼亞語、西班牙語（cat+spa）
有效目標語言標籤	>>cat<< >>spa<<
模型類型	transformer-big
訓練數據	opusTCv20210807+bt (來源)
分詞方式	SentencePiece (spm32k,spm32k)
原始模型	opusTCv20210807+bt_transformer-big_2022-03-13.zip
更多發佈模型信息	OPUS-MT eng-cat+oci+spa README
更多模型相關信息	MarianMT

這是一個支持多種目標語言的多語言翻譯模型。需要以 >>id<< （id = 有效目標語言ID）的形式提供句子初始語言標記，例如 >>cat<<。

基準測試

測試集翻譯：opusTCv20210807+bt_transformer-big_2022-03-13.test.txt
測試集得分：opusTCv20210807+bt_transformer-big_2022-03-13.eval.txt
基準測試結果：benchmark_results.txt
基準測試輸出：benchmark_translations.zip

語言對	測試集	chr-F	BLEU	句子數量	單詞數量
eng-cat	tatoeba-test-v2021-08-07	0.66414	47.8	1631	12344
eng-spa	tatoeba-test-v2021-08-07	0.73725	57.0	16583	134710
eng-cat	flores101-devtest	0.66071	41.5	1012	27304
eng-oci	flores101-devtest	0.56192	25.4	1012	27305
eng-spa	flores101-devtest	0.56288	28.1	1012	29199
eng-spa	newssyscomb2009	0.58431	31.4	502	12503
eng-spa	news-test2008	0.56622	30.0	2051	52586
eng-spa	newstest2009	0.57988	30.5	2525	68111
eng-spa	newstest2010	0.62343	37.4	2489	65480
eng-spa	newstest2011	0.62424	39.1	3003	79476
eng-spa	newstest2012	0.63006	39.6	3003	79006
eng-spa	newstest2013	0.60291	35.8	3000	70528
eng-spa	tico19-test	0.73224	52.5	2100	66563

🔧 技術細節

文檔中未提及具體技術細節，暫不提供。

📄 許可證

本模型使用的許可證為 cc-by-4.0。

致謝

這項工作得到了歐洲語言網格作為試點項目2866 的支持，以及 FoTran項目的資助，該項目由歐盟的“地平線2020”研究和創新計劃（資助協議編號771113）下的歐洲研究理事會（ERC）資助，還有 MeMAD項目的資助，該項目由歐盟的“地平線2020”研究和創新計劃（資助協議編號780069）資助。我們也感謝芬蘭CSC -- 科學信息技術中心提供的慷慨計算資源和IT基礎設施。