🚀 英語 - チュルク語翻訳モデル
このプロジェクトは、英語からチュルク語への翻訳を行うTransformerモデルを提供します。様々なチュルク語に対応しており、特定の前処理を施しています。
🚀 クイックスタート
このモデルを使用するには、以下の情報を参考にしてください。
モデル情報
属性 |
详情 |
モデルタイプ |
Transformer |
ソース言語 |
eng (英語) |
ターゲット言語 |
aze_Latn, bak, chv, crh, crh_Latn, kaz_Cyrl, kaz_Latn, kir_Cyrl, kjh, kum, ota_Arab, ota_Latn, sah, tat, tat_Arab, tat_Latn, tuk, tuk_Latn, tur, tyv, uig_Arab, uig_Cyrl, uzb_Cyrl, uzb_Latn |
前処理 |
正規化 + SentencePiece (spm32k,spm32k) |
初期言語トークン |
>>id<< の形式 (id = 有効なターゲット言語ID) |
オリジナルウェイトのダウンロード |
opus2m-2020-08-01.zip |
テストセットの翻訳 |
opus2m-2020-08-01.test.txt |
テストセットのスコア |
opus2m-2020-08-01.eval.txt |
ベンチマーク
テストセット |
BLEU |
chr-F |
newsdev2016-entr-engtur.eng.tur |
10.1 |
0.437 |
newstest2016-entr-engtur.eng.tur |
9.2 |
0.410 |
newstest2017-entr-engtur.eng.tur |
9.0 |
0.410 |
newstest2018-entr-engtur.eng.tur |
9.2 |
0.413 |
Tatoeba-test.eng-aze.eng.aze |
26.8 |
0.577 |
Tatoeba-test.eng-bak.eng.bak |
7.6 |
0.308 |
Tatoeba-test.eng-chv.eng.chv |
4.3 |
0.270 |
Tatoeba-test.eng-crh.eng.crh |
8.1 |
0.330 |
Tatoeba-test.eng-kaz.eng.kaz |
11.1 |
0.359 |
Tatoeba-test.eng-kir.eng.kir |
28.6 |
0.524 |
Tatoeba-test.eng-kjh.eng.kjh |
1.0 |
0.041 |
Tatoeba-test.eng-kum.eng.kum |
2.2 |
0.075 |
Tatoeba-test.eng.multi |
19.9 |
0.455 |
Tatoeba-test.eng-ota.eng.ota |
0.5 |
0.065 |
Tatoeba-test.eng-sah.eng.sah |
0.7 |
0.030 |
Tatoeba-test.eng-tat.eng.tat |
9.7 |
0.316 |
Tatoeba-test.eng-tuk.eng.tuk |
5.9 |
0.317 |
Tatoeba-test.eng-tur.eng.tur |
34.6 |
0.623 |
Tatoeba-test.eng-tyv.eng.tyv |
5.4 |
0.210 |
Tatoeba-test.eng-uig.eng.uig |
0.1 |
0.155 |
Tatoeba-test.eng-uzb.eng.uzb |
3.4 |
0.275 |
システム情報
- hf_name: eng-trk
- ソース言語: eng
- ターゲット言語: trk
- OPUSのREADME URL: eng-trk
- オリジナルリポジトリ: Tatoeba-Challenge
- タグ: ['translation']
- 言語: ['en', 'tt', 'cv', 'tk', 'tr', 'ba', 'trk']
- ソース構成要素: {'eng'}
- ターゲット構成要素: {'kir_Cyrl', 'tat_Latn', 'tat', 'chv', 'uzb_Cyrl', 'kaz_Latn', 'aze_Latn', 'crh', 'kjh', 'uzb_Latn', 'ota_Arab', 'tuk_Latn', 'tuk', 'tat_Arab', 'sah', 'tyv', 'tur', 'uig_Arab', 'crh_Latn', 'kaz_Cyrl', 'uig_Cyrl', 'kum', 'ota_Latn', 'bak'}
- ソースマルチ言語: False
- ターゲットマルチ言語: True
- 前処理: 正規化 + SentencePiece (spm32k,spm32k)
- モデルURL: https://object.pouta.csc.fi/Tatoeba-MT-models/eng-trk/opus2m-2020-08-01.zip
- テストセットURL: https://object.pouta.csc.fi/Tatoeba-MT-models/eng-trk/opus2m-2020-08-01.test.txt
- ソース言語のISO 639-3コード: eng
- ターゲット言語のISO 639-3コード: trk
- 短い言語ペア: en-trk
- chrF2スコア: 0.455
- BLEU: 19.9
- 簡略化ペナルティ: 1.0
- 参照長: 57072.0
- ソース言語名: English
- ターゲット言語名: Turkic languages
- 学習日: 2020-08-01
- ソース言語のISO 639-2コード: en
- ターゲット言語のISO 639-2コード: trk
- 古いモデルの優先: False
- 長い言語ペア: eng-trk
- Helsinki Git SHA: 480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535
- Transformers Git SHA: 2207e5d8cb224e954a7cba69fa4ac2309e9ff30b
- 移植マシン: brutasse
- 移植時間: 2020-08-21-14:41
📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下で提供されています。