🚀 NLLB-200
NLLB-200の蒸留600Mバリアントのモデルカードです。このモデルは、機械翻訳の研究、特に低リソース言語の研究に主に使用されます。200言語間の単文翻訳を可能にします。
この特定のチェックポイントのメトリクスはこちらです。
🚀 クイックスタート
- トレーニングアルゴリズム、パラメータ、公平性制約、その他の適用アプローチ、および機能に関する情報。NLLB-200のトレーニングに使用された正確なトレーニングアルゴリズム、データ、および高リソース言語と低リソース言語のデータ不均衡を処理するための戦略は、論文で説明されています。
- 詳細情報についての論文またはその他のリソース:NLLB Team et al, No Language Left Behind: Scaling Human-Centered Machine Translation, Arxiv, 2022
- ライセンス: CC-BY-NC
- モデルに関する質問やコメントを送信する場所: https://github.com/facebookresearch/fairseq/issues
✨ 主な機能
意図された使用法
- 主な意図された使用法: NLLB-200は機械翻訳モデルで、主に機械翻訳の研究、特に低リソース言語の研究に使用されます。200言語間の単文翻訳が可能です。モデルの使用方法に関する情報は、Fairseqのコードリポジトリにトレーニングコードや評価およびトレーニングデータへの参照とともに記載されています。
- 主な意図されたユーザー: 主なユーザーは研究者および機械翻訳研究コミュニティです。
- 想定外の使用例: NLLB-200は研究用モデルであり、本番環境でのデプロイ用にはリリースされていません。NLLB-200は一般ドメインのテキストデータでトレーニングされており、医療ドメインや法務ドメインなどの特定ドメインのテキストでの使用を意図していません。また、文書翻訳には使用されることを意図していません。モデルは入力長が512トークンを超えないようにトレーニングされているため、より長いシーケンスを翻訳すると品質が低下する可能性があります。NLLB-200の翻訳は公証翻訳として使用することはできません。
メトリクス
- モデルの性能評価: NLLB-200モデルは、機械翻訳コミュニティで広く採用されているBLEU、spBLEU、およびchrF++メトリクスを使用して評価されました。さらに、XSTSプロトコルを用いた人間による評価を行い、生成された翻訳の毒性を測定しました。
評価データ
- データセット: Flores-200データセットはセクション4で説明されています。
- 動機: 我々はFlores-200を使用しました。これはNLLB-200の言語の完全な評価カバレッジを提供するためです。
- 前処理: 文分割された生テキストデータは、SentencePieceを使用して前処理されました。SentencePieceモデルはNLLB-200とともにリリースされています。
トレーニングデータ
- 我々は、さまざまなソースからの並列多言語データを使用してモデルをトレーニングしました。データ選択と構築プロセスに関する詳細なレポートは、論文のセクション5に記載されています。また、Common Crawlから構築された単言語データも使用しました。詳細はセクション5.2に記載されています。
倫理的な考慮事項
- この研究では、技術開発において反射的なアプローチを取り、人間のユーザーを優先し、彼らに転嫁されるリスクを最小限に抑えることを確保しました。論文全体で倫理的な考慮事項を検討していますが、ここでいくつかの追加ポイントを強調します。まず、この研究で選択された多くの言語は低リソース言語であり、特にアフリカの言語に重点が置かれています。質の高い翻訳はこれらのコミュニティの教育や情報アクセスを改善する可能性がありますが、そのようなアクセスはまた、デジタルリテラシーのレベルが低いグループを誤情報やオンライン詐欺に対してより脆弱にする可能性があります。後者のシナリオは、悪意のある行為者が我々の研究を悪用して悪質な活動を行う場合に発生する可能性があり、これは想定外の使用の一例と考えられます。データ収集に関しては、モデル開発に使用されるトレーニングデータは、ウェブ上のさまざまな公開ソースから収集されました。データクリーニングに多くの時間を費やしましたが、個人を特定できる情報が完全に排除されているとは限りません。最後に、翻訳品質を最適化するために最善を尽くしましたが、モデルが生成する誤訳は残る可能性があります。確率は低いですが、これはこれらの翻訳に依存して重要な決定を下す人々(特に健康や安全に関連する場合)に悪影響を与える可能性があります。
注意事項と推奨事項
- 我々のモデルはWikimediaドメインでテストされており、NLLB-MDでサポートされている他のドメインについては限られた調査しか行っていません。また、サポートされている言語には、我々のモデルが捉えていないバリエーションが存在する可能性があります。ユーザーは適切な評価を行う必要があります。
炭素排出量の詳細
- 二酸化炭素(CO2e)の推定値はセクション8.8に記載されています。
📄 ライセンス
このモデルはCC-BY-NC-4.0ライセンスの下で提供されています。
関連情報
言語
- ace
- acm
- acq
- aeb
- af
- ajp
- ak
- als
- am
- apc
- ar
- ars
- ary
- arz
- as
- ast
- awa
- ayr
- azb
- azj
- ba
- bm
- ban
- be
- bem
- bn
- bho
- bjn
- bo
- bs
- bug
- bg
- ca
- ceb
- cs
- cjk
- ckb
- crh
- cy
- da
- de
- dik
- dyu
- dz
- el
- en
- eo
- et
- eu
- ee
- fo
- fj
- fi
- fon
- fr
- fur
- fuv
- gaz
- gd
- ga
- gl
- gn
- gu
- ht
- ha
- he
- hi
- hne
- hr
- hu
- hy
- ig
- ilo
- id
- is
- it
- jv
- ja
- kab
- kac
- kam
- kn
- ks
- ka
- kk
- kbp
- kea
- khk
- km
- ki
- rw
- ky
- kmb
- kmr
- knc
- kg
- ko
- lo
- lij
- li
- ln
- lt
- lmo
- ltg
- lb
- lua
- lg
- luo
- lus
- lvs
- mag
- mai
- ml
- mar
- min
- mk
- mt
- mni
- mos
- mi
- my
- nl
- nn
- nb
- npi
- nso
- nus
- ny
- oc
- ory
- pag
- pa
- pap
- pbt
- pes
- plt
- pl
- pt
- prs
- quy
- ro
- rn
- ru
- sg
- sa
- sat
- scn
- shn
- si
- sk
- sl
- sm
- sn
- sd
- so
- st
- es
- sc
- sr
- ss
- su
- sv
- swh
- szl
- ta
- taq
- tt
- te
- tg
- tl
- th
- ti
- tpi
- tn
- ts
- tk
- tum
- tr
- tw
- tzm
- ug
- uk
- umb
- ur
- uzn
- vec
- vi
- war
- wo
- xh
- ydd
- yo
- yue
- zh
- zsm
- zu
言語詳細
ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn
タグ
データセット
メトリクス
複製元
facebook/nllb-200-distilled-600M
ウィジェット
- ソース言語: fr
- ターゲット言語: en
- テキスト: "Ceci est un example"
- サンプルタイトル: FR->EN