🚀 eng-tut
- この翻訳モデルは英語(English)をアルタイ諸語(Altaic languages)に翻訳することを目的としています。
- モデルの詳細や評価スコアなどの情報を提供しています。
🚀 クイックスタート
このモデルは英語からアルタイ諸語への翻訳を行うためのTransformerモデルです。使用にあたっては、文頭に >>id<<
(id = 有効な目標言語ID)の形式で言語トークンを付ける必要があります。
モデルのダウンロード
✨ 主な機能
- ソース言語: 英語(eng)
- 目標言語: aze_Latn, bak, chv, crh, crh_Latn, kaz_Cyrl, kaz_Latn, kir_Cyrl, kjh, kum, mon, nog, ota_Arab, ota_Latn, sah, tat, tat_Arab, tat_Latn, tuk, tuk_Latn, tur, tyv, uig_Arab, uig_Cyrl, uzb_Cyrl, uzb_Latn, xal
- 前処理: 正規化 + SentencePiece (spm32k,spm32k)
📚 ドキュメント
モデル情報
属性 |
详情 |
モデルタイプ |
Transformer |
ソース言語 |
eng |
目標言語 |
aze_Latn, bak, chv, crh, crh_Latn, kaz_Cyrl, kaz_Latn, kir_Cyrl, kjh, kum, mon, nog, ota_Arab, ota_Latn, sah, tat, tat_Arab, tat_Latn, tuk, tuk_Latn, tur, tyv, uig_Arab, uig_Cyrl, uzb_Cyrl, uzb_Latn, xal |
前処理 |
正規化 + SentencePiece (spm32k,spm32k) |
ベンチマーク
テストセット |
BLEU |
chr-F |
newsdev2016-entr-engtur.eng.tur |
10.4 |
0.438 |
newstest2016-entr-engtur.eng.tur |
9.1 |
0.414 |
newstest2017-entr-engtur.eng.tur |
9.5 |
0.414 |
newstest2018-entr-engtur.eng.tur |
9.5 |
0.415 |
Tatoeba-test.eng-aze.eng.aze |
27.2 |
0.580 |
Tatoeba-test.eng-bak.eng.bak |
5.8 |
0.298 |
Tatoeba-test.eng-chv.eng.chv |
4.6 |
0.301 |
Tatoeba-test.eng-crh.eng.crh |
6.5 |
0.342 |
Tatoeba-test.eng-kaz.eng.kaz |
11.8 |
0.360 |
Tatoeba-test.eng-kir.eng.kir |
24.6 |
0.499 |
Tatoeba-test.eng-kjh.eng.kjh |
2.2 |
0.052 |
Tatoeba-test.eng-kum.eng.kum |
8.0 |
0.229 |
Tatoeba-test.eng-mon.eng.mon |
10.3 |
0.362 |
Tatoeba-test.eng.multi |
19.5 |
0.451 |
Tatoeba-test.eng-nog.eng.nog |
1.5 |
0.117 |
Tatoeba-test.eng-ota.eng.ota |
0.2 |
0.035 |
Tatoeba-test.eng-sah.eng.sah |
0.7 |
0.080 |
Tatoeba-test.eng-tat.eng.tat |
10.8 |
0.320 |
Tatoeba-test.eng-tuk.eng.tuk |
5.6 |
0.323 |
Tatoeba-test.eng-tur.eng.tur |
34.2 |
0.623 |
Tatoeba-test.eng-tyv.eng.tyv |
8.1 |
0.192 |
Tatoeba-test.eng-uig.eng.uig |
0.1 |
0.158 |
Tatoeba-test.eng-uzb.eng.uzb |
4.2 |
0.298 |
Tatoeba-test.eng-xal.eng.xal |
0.1 |
0.061 |
システム情報
- hf_name: eng-tut
- ソース言語: eng
- 目標言語: tut
- OPUSのREADME URL: eng-tut
- オリジナルのリポジトリ: Tatoeba-Challenge
- タグ: ['translation']
- 言語: ['en', 'tut']
- ソース言語の構成要素: {'eng'}
- 目標言語の構成要素: set()
- ソース言語の多言語性: False
- 目標言語の多言語性: True
- 前処理: 正規化 + SentencePiece (spm32k,spm32k)
- モデルのURL: https://object.pouta.csc.fi/Tatoeba-MT-models/eng-tut/opus2m-2020-08-02.zip
- テストセットのURL: https://object.pouta.csc.fi/Tatoeba-MT-models/eng-tut/opus2m-2020-08-02.test.txt
- ソース言語のISO 639-3コード: eng
- 目標言語のISO 639-3コード: tut
- 短い言語ペア: en-tut
- chrF2スコア: 0.451
- BLEUスコア: 19.5
- 簡略化ペナルティ: 1.0
- 参照文の長さ: 57472.0
- ソース言語の名前: English
- 目標言語の名前: Altaic languages
- 学習日: 2020-08-02
- ソース言語のISO 639-2コード: en
- 目標言語のISO 639-2コード: tut
- 古いバージョンを優先: False
- 長い言語ペア: eng-tut
- HelsinkiのGit SHA: 480fcbe0ee1bf4774bcbe6226ad9f58e63f6c535
- TransformersのGit SHA: 2207e5d8cb224e954a7cba69fa4ac2309e9ff30b
- 移植先のマシン: brutasse
- 移植時間: 2020-08-21-14:41
📄 ライセンス
このプロジェクトはApache-2.0ライセンスの下で提供されています。