opus-mt-tc-big-en-ko開源翻譯模型 - 免費實現英語到韓語精準翻譯

首頁

Opus Mt Tc Big En Ko

由Helsinki-NLP開發

這是一個由赫爾辛基大學語言技術研究組開發的英語到韓語的神經機器翻譯模型，屬於OPUS-MT項目的一部分。

機器翻譯

Transformers

支持多種語言#英韓翻譯 #多語言支持 #高精度翻譯

下載量 1,880

發布時間 : 8/12/2022

模型概述

該模型用於從英語(en)翻譯到韓語(ko)的神經機器翻譯任務，基於transformer-big架構訓練。

模型特點

多語言支持

支持多個目標語言翻譯，需在句首添加語言標記。

高效訓練

使用Marian NMT框架訓練，並轉換為PyTorch格式，便於使用。

開放數據

訓練數據來自開放的OPUS語料庫，模型遵循CC-BY-4.0許可證。

模型能力

英語到韓語翻譯

文本生成

使用案例

翻譯服務

文檔翻譯

將英語文檔翻譯成韓語，適用於跨語言文檔處理。

即時翻譯

集成到聊天或通訊應用中，提供即時的英語到韓語翻譯。

🚀 opus-mt-tc-big-en-ko

這是一個用於英文（en）到韓文（ko）翻譯的神經機器翻譯模型。它屬於OPUS - MT項目，旨在讓神經機器翻譯模型廣泛可用，適用於全球多種語言。

🚀 快速開始

基礎用法

from transformers import MarianMTModel, MarianTokenizer

src_text = [
    "2, 4, 6 etc. are even numbers.",
    "Yes."
]

model_name = "pytorch-models/opus-mt-tc-big-en-ko"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))

for t in translated:
    print( tokenizer.decode(t, skip_special_tokens=True) )

# expected output:
#     2, 4, 6 등은 짝수입니다.
#     그래

高級用法

from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-big-en-ko")
print(pipe("2, 4, 6 etc. are even numbers."))

# expected output: 2, 4, 6 등은 짝수입니다.

✨ 主要特性

此模型是多語言翻譯模型，支持多種目標語言。
可用於翻譯和文本到文本的生成任務。

📦 安裝指南

文檔未提及安裝步驟，暫不展示。

📚 詳細文檔

模型詳情

該模型是用於從英語（en）翻譯成韓語（ko）的神經機器翻譯模型。

此模型是OPUS - MT項目的一部分，該項目致力於使神經機器翻譯模型廣泛適用於世界上的多種語言。所有模型最初都使用Marian NMT這一出色的框架進行訓練，Marian NMT是一個用純C++編寫的高效NMT實現。這些模型已使用huggingface的transformers庫轉換為pyTorch。訓練數據來自OPUS，訓練管道採用OPUS - MT - train的流程。 模型描述：

屬性	詳情
開發者	赫爾辛基大學語言技術研究小組
模型類型	翻譯（transformer - big）
發佈時間	2022 - 07 - 28
許可證	CC - BY - 4.0
源語言	英語（en）
目標語言	韓語（ko）
原始模型	opusTCv20210807 - sepvoc_transformer - big_2022 - 07 - 28.zip
更多信息資源	OPUS - MT - train GitHub倉庫；此語言對已發佈模型的更多信息：OPUS - MT eng - kor README；transformers庫中MarianNMT模型的更多信息；Tatoeba翻譯挑戰

這是一個具有多個目標語言的多語言翻譯模型。需要以>>id<<（id = 有效的目標語言ID）的形式使用句子初始語言標記，例如>><<。

用途

此模型可用於翻譯和文本到文本的生成。

風險、限制和偏差

⚠️ 重要提示

讀者應注意，該模型是在各種公共數據集上訓練的，這些數據集可能包含令人不安、冒犯性的內容，並且可能傳播歷史和當前的刻板印象。

大量研究已經探討了語言模型的偏差和公平性問題（例如，參見Sheng等人（2021）和Bender等人（2021））。

訓練

數據：opusTCv20210807（來源）
預處理：SentencePiece（spm32k,spm32k）
模型類型：transformer - big
原始MarianNMT模型：opusTCv20210807 - sepvoc_transformer - big_2022 - 07 - 28.zip
訓練腳本：GitHub倉庫

評估

測試集翻譯：opusTCv20210807 - sepvoc_transformer - big_2022 - 07 - 28.test.txt
測試集分數：opusTCv20210807 - sepvoc_transformer - big_2022 - 07 - 28.eval.txt
基準測試結果：benchmark_results.txt
基準測試輸出：benchmark_translations.zip

語言對	測試集	chr - F	BLEU	句子數量	單詞數量

引用信息

出版物：OPUS - MT – 為世界構建開放翻譯服務和塔託埃巴翻譯挑戰 – 低資源和多語言機器翻譯的現實數據集（如果使用此模型，請引用）

@inproceedings{tiedemann-thottingal-2020-opus,
    title = "{OPUS}-{MT} {--} Building open translation services for the World",
    author = {Tiedemann, J{\"o}rg  and Thottingal, Santhosh},
    booktitle = "Proceedings of the 22nd Annual Conference of the European Association for Machine Translation",
    month = nov,
    year = "2020",
    address = "Lisboa, Portugal",
    publisher = "European Association for Machine Translation",
    url = "https://aclanthology.org/2020.eamt-1.61",
    pages = "479--480",
}

@inproceedings{tiedemann-2020-tatoeba,
    title = "The Tatoeba Translation Challenge {--} Realistic Data Sets for Low Resource and Multilingual {MT}",
    author = {Tiedemann, J{\"o}rg},
    booktitle = "Proceedings of the Fifth Conference on Machine Translation",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.wmt-1.139",
    pages = "1174--1182",
}

致謝

這項工作得到了歐洲語言網格的試點項目2866、由歐洲研究理事會（ERC）在歐盟的“地平線2020”研究和創新計劃（資助協議編號771113）資助的FoTran項目以及由歐盟的“地平線2020”研究和創新計劃（資助協議編號780069）資助的MeMAD項目的支持。我們也感謝芬蘭CSC - 科學信息技術中心提供的慷慨計算資源和IT基礎設施。