
Model Overview
Model Features
Model Capabilities
Use Cases
🚀 opus-mt-tc-bible-big-mul-mul
これは多言語翻訳モデルで、複数の言語から複数の言語への翻訳をサポートしています。このモデルは大量の公開データを使って学習され、翻訳やテキスト生成タスクに使用できます。ただし、学習データの制限により、一部の言語ペアでは翻訳精度が低い場合があります。
🚀 クイックスタート
以下は、このモデルを使って翻訳を行う簡単なコード例です。
from transformers import MarianMTModel, MarianTokenizer
src_text = [
">>rus<< You'd better not speak to Tom about that.",
">>ceb<< How are you?"
]
model_name = "pytorch-models/opus-mt-tc-bible-big-mul-mul"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))
for t in translated:
print( tokenizer.decode(t, skip_special_tokens=True) )
# expected output:
# Лучше бы не поговорить с Томом об этом.
# Sa unsang paagi ikaw?
また、transformers
ライブラリのパイプライン機能を使って OPUS-MT モデルを使用することもできます。例を以下に示します。
from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-bible-big-mul-mul")
print(pipe(">>rus<< You'd better not speak to Tom about that."))
# expected output: Лучше бы не поговорить с Томом об этом.
✨ 主な機能
- 多言語サポート:多数の言語間での翻訳をサポートしています。
- 幅広い用途:翻訳やテキスト生成タスクに使用できます。
📦 インストール
ドキュメントにインストール手順は記載されていません。このモデルを使用する場合は、transformers
ライブラリの公式ドキュメントを参照してインストールしてください。
💻 使用例
基本的な使用法
from transformers import MarianMTModel, MarianTokenizer
src_text = [
">>rus<< You'd better not speak to Tom about that.",
">>ceb<< How are you?"
]
model_name = "pytorch-models/opus-mt-tc-bible-big-mul-mul"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
translated = model.generate(**tokenizer(src_text, return_tensors="pt", padding=True))
for t in translated:
print( tokenizer.decode(t, skip_special_tokens=True) )
# expected output:
# Лучше бы не поговорить с Томом об этом.
# Sa unsang paagi ikaw?
高度な使用法
from transformers import pipeline
pipe = pipeline("translation", model="Helsinki-NLP/opus-mt-tc-bible-big-mul-mul")
print(pipe(">>rus<< You'd better not speak to Tom about that."))
# expected output: Лучше бы не поговорить с Томом об этом.
📚 ドキュメント
モデルの詳細
これは、複数の言語(mul)から複数の言語(mul)への翻訳を行うニューラル機械翻訳モデルです。ほとんどの言語の学習データが非常に限られているため、リスト内の多くの言語に対するモデルのサポートは不十分な場合があります。翻訳性能には大きな差があり、多くの言語ペアではモデルが全く機能しない可能性があります。
このモデルは OPUS-MT プロジェクト の一部で、このプロジェクトはニューラル機械翻訳モデルを世界中の多くの言語に広く適用できるようにすることを目指しています。すべてのモデルは最初に Marian NMT という優れたフレームワークを使って学習され、これは純粋な C++ で書かれた効率的な NMT 実装です。これらのモデルは huggingface の transformers
ライブラリを使って PyTorch 形式に変換されています。学習データは OPUS から取得され、学習パイプラインは OPUS-MT-train の流れに沿っています。
モデルの説明:
属性 | 詳細 |
---|---|
開発者 | ヘルシンキ大学言語技術研究グループ |
モデルタイプ | 翻訳(transformer-big) |
公開日 | 2024-08-17 |
ライセンス | Apache-2.0 |
源言語 | aar abk ace ach acm ady afb afh afr aii ajp aka akl aln alt amh ami amu ang anp aoz apc ara arc arg arq arz asm ast atj ava avk awa ayl aze azz bak bal bam ban bar bas bcl bel bem ben bho bik bis bod bom bos bpy bre brx bua bug bul bvy byn bzt cak cat cay cbk ceb ces cha che chg chm chq chr chu chv chy cjk cjp cjy ckb cmn cnh cni cnr cop cor cos cre crh crk crs csb cym dag dan deu dik din diq div dje djk dng dop drt dsb dtp dty dws dyu dzo efi egl ell emx eng enm epo est eus evn ewe ext fao fas fij fil fin fkv fon fra frm fro frp frr fry fuc ful fur gag gbm gcf gil gla gle glg glk glv gor gos got grc grn gsw guc guj guw hat hau haw hbo hbs heb her hif hil hin hmn hne hnj hoc hrv hrx hsb hsn hun hus hye hyw iba ibo ido igs iii ike iku ile ilo ina ind inh ipk isl ita ixl izh jaa jak jam jav jbo jdt jpa jpn kaa kab kac kal kam kan kas kat kau kaz kbd kbp kea kek kha khm kik kin kir kiu kjh kmb kmr knc koi kok kom kon kpv krc krl ksh kua kum kur kxi laa lad lah lao lat lav lbe ldn lez lfn lij lim lin lit liv lkt lld lmo lou lrc ltz lua lug luo lus lut luy lzz mad mag mah mai mal mam mar max mdf meh mfa mfe mgm mic mix mkd mlg mlt mnc mni mnr mnw moh mol mon mos mri mrj msa mvv mwl mww mya myv mzn nap nau nav nbl nch nde nds nep new ngt ngu nhg nhn nia niu nld nlv nnb nno nob nog non nov npi nqo nso nst nus nya oar oci ofs oji ood ori orm orv osp oss ota otk pag pai pal pam pan pap pau pcd pck pcm pdc pes pfl phn pih pli plt pms pmy pnt pol por pot ppk ppl prg prs pus quc qxq qya rap rhg rif rmy roh rom ron rue run rup rus sag sah san sat scn sco sdh ses sgs shi shn shs shy sin sjn skr slk slv sma sme sml smn smo sna snd som sot spa sqi srd srn srp ssw stq sun swa swc swe swg swh syc syl syr szl tah tam taq tat tcy tel tet tgk tgl tha thv tig tir tkl tlh tly tmh tmr tmw toi ton tpi tpw trs trv tsn tso tts tuk tum tur tvl twi tyj tyv tzl tzm udm uig ukr umb urd usp uzb vec ven vep vie vls vol vot vro wae wal war wln wol wuu xal xcl xho xmf yid yor yua yue zam zap zea zgh zha zlm zsm zul zza |
目標言語 | aar abk ace ach acm ady afb afh_Latn afr aii_Syrc ajp aka akl_Latn aln alt amh ami ami_Latn amu_Latn ang_Latn anp aoz apc ara arc arg arq arz asm ast atj ava avk_Latn awa ayl aze_Cyrl aze_Latn azz azz_Latn bak bal bal_Latn bam_Latn ban bar bas bcl bel bem ben bho bik bis bod bom_Latn bos_Cyrl bos_Latn bpy bre brx bua bug bul bvy_Latn byn bzt_Latn cak cak_Latn cat cay cbk_Latn ceb ces cha che chg_Arab chg_Latn chm chq_Latn chr chu chv chy cjk cjk_Latn cjp_Latn cjy_Hans cjy_Hant ckb cmn cmn_Hans cmn_Hant cnh cnh_Latn cni_Latn cnr cnr_Latn cop cop_Copt cor cos cre cre_Latn crh crk crs csb csb_Latn cym dag_Latn dan deu dik din diq div dje djk djk_Latn dng dop_Latn drt_Latn dsb dtp dty dws_Latn dyu dzo efi egl ell emx_Latn eng enm_Latn epo est eus evn ewe ext fao fas fij fil fin fkv_Latn fon fra frm_Latn fro_Latn frp frr fry fuc ful fur gag gbm gcf gcf_Latn gil gla gle glg glk glv gor gos got got_Goth grc grn gsw guc guj guw guw_Latn hat hau_Latn haw hbo_Hebr hbs hbs_Cyrl hbs_Latn heb her hif_Latn hil hin hmn hne hnj hoc hrv hrx hsb hsn hun hus hus_Latn hye hyw iba ibo ido_Latn igs_Latn iii ike_Latn iku_Latn ile ile_Latn ilo ina_Latn ind inh inh_Latn ipk isl ita ixl_Latn izh jaa jaa_Bopo jaa_Hira jaa_Kana jaa_Yiii jak_Latn jam jav jav_Java jbo jbo_Cyrl jbo_Latn jdt_Cyrl jpa_Hebr jpn kaa kab kac kal kam kan kas_Arab kas_Deva kat kau kaz kaz_Cyrl kbd kbp kbp_Cans kbp_Ethi kbp_Geor kbp_Grek kbp_Hang kbp_Latn kbp_Mlym kbp_Yiii kea kek kek_Latn kha khm kik kin kir_Cyrl kiu kjh kmb kmr knc koi kok kom kon kpv krc krl ksh kua kum kur_Arab kur_Cyrl kur_Latn kxi_Latn laa_Latn lad lad_Latn lah lao lat lat_Latn lav lbe ldn_Latn lez lfn_Cyrl lfn_Latn lij lim lin lit liv_Latn lkt lld_Latn lmo lou_Latn lrc ltz lua lug luo lus lut_Latn luy lzz_Geor lzz_Latn mad mag mah mai mal mam mam_Latn mar max_Latn mdf meh_Latn mfa mfe mgm_Latn mic mix mix_Latn mkd mlg mlt mnc_Mong mni mnr_Latn mnw moh mol mon mos mri mrj msa_Arab msa_Latn mvv_Latn mwl mww mya myv mzn nap nau nav nbl nch nde nds nep new ngt_Latn ngu ngu_Latn nhg_Latn nhn_Latn nia niu nld nlv_Latn nnb_Latn nno nob nog non nov_Latn npi nqo nso nst_Latn nus nya oar_Hebr oar_Syrc oci ofs_Latn oji_Latn ood_Latn ori orm orv_Cyrl osp_Latn oss ota_Arab ota_Latn ota_Rohg ota_Syrc ota_Thaa ota_Yezi otk otk_Orkh pag pai_Latn pal pam pan pan_Guru pap pau pcd pck_Latn pcm pdc pes pfl phn_Phnx pih pih_Latn pli plt pms pmy_Latn pnt_Grek pol por pot_Latn ppk_Latn ppl_Latn prg_Latn prs pus quc qxq_Arab qxq_Latn qya qya_Latn rap rhg_Latn rif_Latn rmy roh rom rom_Cyrl ron rue run rup rus sag sah san san_Deva sat sat_Latn scn sco sdh ses sgs shi_Latn shn shs_Latn shy_Latn sin sjn_Latn skr slk slv sma sme sml_Latn smn smo sna snd_Arab som sot spa sqi srd srn srp_Cyrl ssw stq sun swa swc swe swg swh syc_Syrc syl_Sylo syr szl tah tam taq tat tcy tel tet tgk_Cyrl tgk_Latn tgl tgl_Latn tgl_Tglg tha thv tig tir tkl tlh tlh_Latn tly_Latn tmh tmr_Hebr tmw_Latn toi toi_Latn ton tpi tpw_Latn trs trs_Latn trv tsn tso tts tuk tuk_Cyrl tuk_Latn tum tur tvl twi tyj_Latn tyv tzl tzl_Latn tzm_Latn tzm_Tfng udm uig uig_Arab uig_Cyrl uig_Latn ukr umb urd usp_Latn uzb_Cyrl uzb_Latn vec ven vep vie vls vol_Latn vot vot_Latn vro wae wal war wln wol wuu xal xcl_Armn xcl_Latn xho xmf yid yor yua yue_Hans yue_Hant zam zap zea zgh zha zlm_Arab zlm_Latn zsm_Arab zsm_Latn zul zza |
元のモデル | opusTCv20230926+bt+jhubc_transformer-big_2024-08-17.zip |
詳細情報リソース | OPUS-MT ダッシュボード;OPUS-MT-train GitHub リポジトリ;transformers ライブラリの MarianNMT モデルの詳細情報;Tatoeba 翻訳チャレンジ;HPLT バイリンガルデータ v1(Tatoeba 翻訳チャレンジデータセットの一部);大規模並列聖書コーパス |
これは複数の目標言語を持つ多言語翻訳モデルです。>>id<<
(id = 有効な目標言語 ID)の形式で文の初期言語タグを指定する必要があります。例えば >>aar<<
のように指定します。
用途
このモデルは翻訳やテキスト生成タスクに使用できます。
リスク、制限、およびバイアス
⚠️ 重要な注意事項
このモデルは様々な公開データセットを使って学習されており、これらのデータセットには不快な内容や冒犯的な内容が含まれている可能性があり、歴史的および現在の固定観念を広める可能性があります。
多くの研究で、言語モデルのバイアスと公平性の問題が検討されています(例えば、Sheng ら (2021) および Bender ら (2021) を参照)。
また、ほとんどの言語の学習データが非常に限られているため、リスト内の多くの言語に対するモデルのサポートは不十分な場合があります。翻訳性能には大きな差があり、多くの言語ペアではモデルが全く機能しない可能性があります。
🔧 技術詳細
学習
- データ:opusTCv20230926+bt+jhubc(ソース)
- 前処理:SentencePiece(spm64k,spm64k)
- モデルタイプ:transformer-big
- 元の MarianNMT モデル:opusTCv20230926+bt+jhubc_transformer-big_2024-08-17.zip
- 学習スクリプト:GitHub リポジトリ
評価
- OPUS-MT ダッシュボード上のモデルスコア
- テストセットの翻訳:opusTCv20230926+bt+jhubc_transformer-big_2024-08-17.test.txt
- テストセットのスコア:opusTCv20230926+bt+jhubc_transformer-big_2024-08-17.eval.txt
- ベンチマークテスト結果:benchmark_results.txt
- ベンチマークテスト出力:benchmark_translations.zip
言語ペア | テストセット | chr-F | BLEU | 文の数 | 単語数 |
---|---|---|---|---|---|
multi-multi | tatoeba-test-v2020-07-28-v2023-09-26 | 0.51760 | 28.1 | 10000 | 73531 |
📄 ライセンス
このモデルは Apache-2.0 ライセンスの下で提供されています。
謝辞
この研究は HPLT プロジェクト の支援を受けています。このプロジェクトは欧州連合の「ホライゾン・ヨーロッパ」研究・革新プログラムによって資金提供されており、助成協定番号は 101070350 です。また、フィンランド CSC -- 科学情報技術センター と 欧州の高性能コンピュータ LUMI が提供する計算資源と IT インフラストラクチャに感謝します。
モデル変換情報
transformers
バージョン:4.45.1- OPUS-MT git ハッシュ値:0882077
- 変換日時:Wed Oct 9 19:20:34 EEST 2024
- 変換マシン:LM0-400-22516.local
引用情報
このモデルを使用する場合は、以下の出版物を引用してください。
- Democratizing neural machine translation with OPUS-MT
- OPUS-MT – Building open translation services for the World
- The Tatoeba Translation Challenge – Realistic Data Sets for Low Resource and Multilingual MT
@article{tiedemann2023democratizing,
title={Democratizing neural machine translation with {OPUS-MT}},
author={Tiedemann, J{\"o}rg and Aulamo, Mikko and Bakshandaeva, Daria and Boggia, Michele and Gr{\"o}nroos, Stig-Arne and Nieminen, Tommi and Raganato, Alessandro and Scherrer, Yves and Vazquez, Raul and Virpioja, Sami},
journal={Language Resources and Evaluation},
number={58},
pages={713--755},
year={2023},
publisher={Springer Nature},
issn={1574-0218},
doi={10.1007/s10579-023-09704-w}
}
@inproceedings{tiedemann-thottingal-2020-opus,
title = "{OPUS}-{MT} {--} Building open translation services for the World",
author = {Tiedemann, J{\"o}rg and Thottingal, Santhosh},
booktitle = "Proceedings of the 22nd Annual Conference of the European Association for Machine Translation",
month = nov,
year = "2020",
address = "Lisboa, Portugal",
publisher = "European Association for Machine Translation",
url = "https://aclanthology.org/2020.eamt-1.61",
pages = "479--480",
}
@inproceedings{tiedemann-2020-tatoeba,
title = "The Tatoeba Translation Challenge {--} Realistic Data Sets for Low Resource and Multilingual {MT}",
author = {Tiedemann, J{\"o}rg},
booktitle = "Proceedings of the Fifth Conference on Machine Translation",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2020.wmt-1.139",
pages = "1174--1182",
}



