モデル概要
モデル特徴
モデル能力
使用事例
🚀 opus-mt-tc-bible-big-roa-en
このモデルは、ロマンス語族(roa)の言語を英語(en)に翻訳するためのニューラル機械翻訳モデルです。OPUS - MTプロジェクトの一部として、ニューラル機械翻訳モデルを広く利用可能にし、世界中の多くの言語にサービスを提供することを目的としています。
🚀 クイックスタート
簡単なサンプルコード
from transformers import MarianMTModel, MarianTokenizer
src_text = [
"É caro demais.",
"Estamos muertos."
]
model_name = "pytorch-models/opus-mt-tc-bible-big-roa-en"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))
for t in translated:
print( tokenizer.decode(t, skip_special_tokens=True) )
# expected output:
# It's too expensive.
# We're dead.
また、transformersのpipelineを使用してOPUS - MTモデルを利用することもできます。例えば:
from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-bible-big-roa-en")
print(pipe("É caro demais."))
# expected output: It's too expensive.
✨ 主な機能
- 複数のロマンス語族言語から英語への翻訳をサポートします。
- OPUS - MTプロジェクトの一部で、Marian NMTフレームワークを使って訓練され、その後pyTorchモデルに変換されています。
- 訓練データはOPUSから取得され、訓練プロセスはOPUS - MT - trainの手順に従っています。
💻 使用例
基本的な使用法
from transformers import MarianMTModel, MarianTokenizer
src_text = [
"É caro demais.",
"Estamos muertos."
]
model_name = "pytorch-models/opus-mt-tc-bible-big-roa-en"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))
for t in translated:
print( tokenizer.decode(t, skip_special_tokens=True) )
# expected output:
# It's too expensive.
# We're dead.
高度な使用法
from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-bible-big-roa-en")
print(pipe("É caro demais."))
# expected output: It's too expensive.
📚 ドキュメント
モデルの詳細
このモデルは、ロマンス語族(roa)の言語を英語(en)に翻訳するためのニューラル機械翻訳モデルです。
このモデルは[OPUS - MTプロジェクト](https://github.com/Helsinki - NLP/Opus - MT)の一部で、ニューラル機械翻訳モデルを広く利用可能にし、世界中の多くの言語にサービスを提供することを目指しています。すべてのモデルは最初に[Marian NMT](https://marian - nmt.github.io/)フレームワークを使用して訓練されます。これは、純粋なC++で書かれた効率的なNMT実装です。これらのモデルはhuggingfaceのtransformersライブラリを通じてpyTorchモデルに変換されます。訓練データはOPUSから取得され、訓練プロセスは[OPUS - MT - train](https://github.com/Helsinki - NLP/Opus - MT - train)の手順に従っています。
属性 | 詳細 |
---|---|
開発チーム | ヘルシンキ大学言語技術研究グループ |
モデルタイプ | 翻訳(transformer - big) |
公開日 | 2024 - 08 - 17 |
ライセンス | Apache - 2.0 |
ソース言語 | acf arg ast cat cbk cos egl ext fra frm frp fur gcf glg hat ita kea lad lij lld lmo lou mfe mol mwl nap oci osp pap pms por roh ron rup scn spa srd vec wln |
ターゲット言語 | eng |
オリジナルモデル | [opusTCv20230926max50+bt+jhubc_transformer - big_2024 - 08 - 17.zip](https://object.pouta.csc.fi/Tatoeba - MT - models/roa - eng/opusTCv20230926max50+bt+jhubc_transformer - big_2024 - 08 - 17.zip) |
詳細情報リソース | [OPUS - MTダッシュボード](https://opus.nlpl.eu/dashboard/index.php?pkg=opusmt&test=all&scoreslang=all&chart=standard&model=Tatoeba - MT - models/roa - eng/opusTCv20230926max50%2Bbt%2Bjhubc_transformer - big_2024 - 08 - 17) [OPUS - MT - train GitHubリポジトリ](https://github.com/Helsinki - NLP/OPUS - MT - train) transformersライブラリのMarianNMTモデルに関する詳細情報 [Tatoeba翻訳チャレンジ](https://github.com/Helsinki - NLP/Tatoeba - Challenge/) [HPLTバイリンガルデータv1(Tatoeba翻訳チャレンジデータセットの一部)](https://hplt - project.org/datasets/v1) [大規模並列聖書コーパス](https://aclanthology.org/L14 - 1215/) |
用途
このモデルは、翻訳とテキスト生成に使用できます。
リスク、制限、バイアス
⚠️ 重要な注意事項
このモデルは様々な公共データセットを使用して訓練されており、これらのデータセットには不快な内容や差別的な表現が含まれている可能性があり、過去や現在の固定概念を広める可能性があります。
言語モデルのバイアスと公平性に関する多くの研究が行われています(例えば、[Sheng et al. (2021)](https://aclanthology.org/2021.acl - long.330.pdf) と Bender et al. (2021) を参照)。
訓練
- データ:opusTCv20230926max50+bt+jhubc([ソース](https://github.com/Helsinki - NLP/Tatoeba - Challenge))
- 前処理:SentencePiece(spm32k,spm32k)
- モデルタイプ:transformer - big
- オリジナルのMarianNMTモデル:[opusTCv20230926max50+bt+jhubc_transformer - big_2024 - 08 - 17.zip](https://object.pouta.csc.fi/Tatoeba - MT - models/roa - eng/opusTCv20230926max50+bt+jhubc_transformer - big_2024 - 08 - 17.zip)
- 訓練スクリプト:[GitHubリポジトリ](https://github.com/Helsinki - NLP/OPUS - MT - train)
評価
- [OPUS - MTダッシュボード上のモデルスコア](https://opus.nlpl.eu/dashboard/index.php?pkg=opusmt&test=all&scoreslang=all&chart=standard&model=Tatoeba - MT - models/roa - eng/opusTCv20230926max50%2Bbt%2Bjhubc_transformer - big_2024 - 08 - 17)
- テストセットの翻訳:[opusTCv20230926max50+bt+jhubc_transformer - big_2024 - 08 - 17.test.txt](https://object.pouta.csc.fi/Tatoeba - MT - models/roa - eng/opusTCv20230926max50+bt+jhubc_transformer - big_2024 - 08 - 17.test.txt)
- テストセットのスコア:[opusTCv20230926max50+bt+jhubc_transformer - big_2024 - 08 - 17.eval.txt](https://object.pouta.csc.fi/Tatoeba - MT - models/roa - eng/opusTCv20230926max50+bt+jhubc_transformer - big_2024 - 08 - 17.eval.txt)
- ベンチマーク結果:benchmark_results.txt
- ベンチマーク出力:benchmark_translations.zip
言語ペア | テストセット | chr - F | BLEU | 文の数 | 単語の数 |
---|---|---|---|---|---|
multi - eng | tatoeba - test - v2020 - 07 - 28 - v2023 - 09 - 26 | 0.76737 | 62.8 | 10000 | 87576 |
引用情報
- 出版物:[OPUS - MTによるニューラル機械翻訳の民主化](https://doi.org/10.1007/s10579 - 023 - 09704 - w)、[OPUS - MT – 世界向けのオープン翻訳サービスの構築](https://aclanthology.org/2020.eamt - 1.61/)、および[タトエバ翻訳チャレンジ – 低リソースおよび多言語機械翻訳の現実的なデータセット](https://aclanthology.org/2020.wmt - 1.139/)(このモデルを使用する場合は、これらを引用してください)。
@article{tiedemann2023democratizing,
title={Democratizing neural machine translation with {OPUS-MT}},
author={Tiedemann, J{\"o}rg and Aulamo, Mikko and Bakshandaeva, Daria and Boggia, Michele and Gr{\"o}nroos, Stig-Arne and Nieminen, Tommi and Raganato, Alessandro and Scherrer, Yves and Vazquez, Raul and Virpioja, Sami},
journal={Language Resources and Evaluation},
number={58},
pages={713--755},
year={2023},
publisher={Springer Nature},
issn={1574-0218},
doi={10.1007/s10579-023-09704-w}
}
@inproceedings{tiedemann-thottingal-2020-opus,
title = "{OPUS}-{MT} {--} Building open translation services for the World",
author = {Tiedemann, J{\"o}rg and Thottingal, Santhosh},
booktitle = "Proceedings of the 22nd Annual Conference of the European Association for Machine Translation",
month = nov,
year = "2020",
address = "Lisboa, Portugal",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2020.eamt-1.61",
pages = "479--480",
}
@inproceedings{tiedemann-2020-tatoeba,
title = "The Tatoeba Translation Challenge {--} Realistic Data Sets for Low Resource and Multilingual {MT}",
author = {Tiedemann, J{\"o}rg},
booktitle = "Proceedings of the Fifth Conference on Machine Translation",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.wmt-1.139",
pages = "1174--1182",
}
謝辞
この研究は[HPLTプロジェクト](https://hplt - project.org/)によって支援されています。このプロジェクトは、欧州連合の「ホライゾン・ヨーロッパ」研究・イノベーションプログラムによって資金提供されており、助成協定番号は101070350です。また、フィンランドのCSC - 科学情報技術センターと[欧州の高性能コンピュータLUMI](https://www.lumi - supercomputer.eu/)が提供する計算資源とITインフラストラクチャに感謝します。
モデル変換情報
- transformersバージョン:4.45.1
- OPUS - MT gitハッシュ値:0882077
- 変換日時:2024年10月8日 火曜日 15:26:36 EEST
- 変換マシン:LM0 - 400 - 22516.local
📄 ライセンス
このモデルはApache - 2.0ライセンスの下で提供されています。



