🚀 NLLB - 200
NLLB - 200は、機械翻訳の研究、特に低リソース言語の研究を目的とした機械翻訳モデルです。このモデルは、200言語間での単文翻訳を可能にします。
言語一覧
language:
- ace
- acm
- acq
- aeb
- af
- ajp
- ak
- als
- am
- apc
- ar
- ars
- ary
- arz
- as
- ast
- awa
- ayr
- azb
- azj
- ba
- bm
- ban
- be
- bem
- bn
- bho
- bjn
- bo
- bs
- bug
- bg
- ca
- ceb
- cs
- cjk
- ckb
- crh
- cy
- da
- de
- dik
- dyu
- dz
- el
- en
- eo
- et
- eu
- ee
- fo
- fj
- fi
- fon
- fr
- fur
- fuv
- gaz
- gd
- ga
- gl
- gn
- gu
- ht
- ha
- he
- hi
- hne
- hr
- hu
- hy
- ig
- ilo
- id
- is
- it
- jv
- ja
- kab
- kac
- kam
- kn
- ks
- ka
- kk
- kbp
- kea
- khk
- km
- ki
- rw
- ky
- kmb
- kmr
- knc
- kg
- ko
- lo
- lij
- li
- ln
- lt
- lmo
- ltg
- lb
- lua
- lg
- luo
- lus
- lvs
- mag
- mai
- ml
- mar
- min
- mk
- mt
- mni
- mos
- mi
- my
- nl
- nn
- nb
- npi
- nso
- nus
- ny
- oc
- ory
- pag
- pa
- pap
- pbt
- pes
- plt
- pl
- pt
- prs
- quy
- ro
- rn
- ru
- sg
- sa
- sat
- scn
- shn
- si
- sk
- sl
- sm
- sn
- sd
- so
- st
- es
- sc
- sr
- ss
- su
- sv
- swh
- szl
- ta
- taq
- tt
- te
- tg
- tl
- th
- ti
- tpi
- tn
- ts
- tk
- tum
- tr
- tw
- tzm
- ug
- uk
- umb
- ur
- uzn
- vec
- vi
- war
- wo
- xh
- ydd
- yo
- yue
- zh
- zsm
- zu
language_details: "ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn"
tags:
- nllb
- translation
license: "cc - by - nc - 4.0"
datasets:
- flores - 200
metrics:
- bleu
- spbleu
- chrf++
inference: false
メトリクス
この特定のチェックポイントのメトリクスはこちらです。
詳細情報
- 訓練アルゴリズム、パラメータ、公平性制約、その他のアプローチや機能に関する情報。NLLB - 200の訓練に使用された正確な訓練アルゴリズム、データ、および高リソース言語と低リソース言語のデータ不均衡を処理する戦略は、論文で説明されています。
- 詳細情報のための論文またはその他のリソース:NLLB Team et al, No Language Left Behind: Scaling Human - Centered Machine Translation, Arxiv, 2022
- ライセンス: CC - BY - NC
- モデルに関する質問やコメントの送信先: https://github.com/facebookresearch/fairseq/issues
🚀 クイックスタート
想定される使用方法
- 主な想定使用目的: NLLB - 200は機械翻訳モデルで、主に機械翻訳の研究、特に低リソース言語の研究を目的としています。このモデルは200言語間での単文翻訳を可能にします。モデルの使用方法に関する情報は、Fairseqのコードリポジトリに訓練コードや評価および訓練データの参照とともに記載されています。
- 主な想定ユーザー: 主なユーザーは研究者および機械翻訳研究コミュニティです。
- 想定外の使用例: NLLB - 200は研究用モデルであり、本番環境でのデプロイ向けにはリリースされていません。NLLB - 200は一般ドメインのテキストデータで訓練されており、医療ドメインや法務ドメインなどの特定ドメインのテキストでの使用を想定していません。また、このモデルは文書翻訳には使用されることを想定していません。モデルは入力長が512トークンを超えないように訓練されているため、より長いシーケンスの翻訳では品質が低下する可能性があります。NLLB - 200の翻訳は公認の翻訳として使用することはできません。
メトリクス
- モデルの性能評価指標: NLLB - 200モデルは、機械翻訳コミュニティで広く採用されているBLEU、spBLEU、およびchrF++メトリクスを使用して評価されました。さらに、XSTSプロトコルによる人間評価を行い、生成された翻訳の毒性を測定しました。
評価データ
- データセット: Flores - 200データセットは論文のセクション4で説明されています。
- 動機: 私たちはFlores - 200を使用しました。これはNLLB - 200の言語の完全な評価カバレッジを提供するためです。
- 前処理: 文分割された生テキストデータは、SentencePieceを使用して前処理されました。SentencePieceモデルはNLLB - 200とともにリリースされています。
訓練データ
- 私たちは、様々なソースからの並列多言語データを使用してモデルを訓練しました。データ選択と構築プロセスの詳細レポートは、論文のセクション5で提供されています。また、Common Crawlから構築された単言語データも使用しました。詳細はセクション5.2で提供されています。
倫理的な考慮事項
- この研究では、技術開発において反射的なアプローチを取り、人間のユーザーを優先し、彼らに転嫁されるリスクを最小限に抑えるようにしました。論文全体で倫理的な考慮事項について考察していますが、ここでいくつかの追加ポイントを強調します。まず、この研究で選択された多くの言語は低リソース言語であり、特にアフリカの言語に重点が置かれています。質の高い翻訳はこれらのコミュニティの教育や情報アクセスを改善する可能性がありますが、そのようなアクセスはデジタル素養の低いグループを誤情報やオンライン詐欺に対してより脆弱にする可能性もあります。悪意のある人物が私たちの研究成果を悪用して悪質な活動を行う場合、これは想定外の使用例として考えられます。データ収集に関しては、モデル開発に使用された訓練データはウェブ上の様々な公開ソースから収集されました。私たちはデータクリーニングに力を入れましたが、個人を特定できる情報が完全に排除されているとは限りません。最後に、私たちは翻訳品質を最適化するために最善を尽くしましたが、モデルによる誤訳が残る可能性があります。確率は低いですが、これはこれらの翻訳に依存して重要な決定を下す人々(特に健康や安全に関連する場合)に悪影響を与える可能性があります。
注意事項と推奨事項
- 私たちのモデルはWikimediaドメインでテストされており、NLLB - MDでサポートされている他のドメインについては限られた調査しか行っていません。また、サポートされている言語にはモデルが捉えられていないバリエーションがある可能性があります。ユーザーは適切な評価を行う必要があります。
二酸化炭素排出量の詳細
- 二酸化炭素(CO2e)の推定値はセクション8.8で報告されています。
📄 ライセンス
このモデルのライセンスはCC - BY - NCです。