🚀 NLLB - 200
このモデルはNLLB - 200の6億パラメータの蒸留バリアントのモデルカードです。この特定のチェックポイントのメトリクスを参照できます。
🚀 クイックスタート
このセクションでは、NLLB - 200モデルの概要と基本的な使い方を説明します。
✨ 主な機能
- 200言語間の単文翻訳が可能で、特に低リソース言語の機械翻訳研究に適しています。
- 機械翻訳コミュニティで広く採用されているBLEU、spBLEU、chrF++メトリクスで評価されています。
📦 インストール
原READMEにインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
原READMEにコード例が記載されていないため、このセクションは省略されます。
📚 ドキュメント
意図された使用方法
- 主な使用目的:NLLB - 200は機械翻訳の研究、特に低リソース言語の研究を目的とした機械翻訳モデルです。200言語間の単文翻訳が可能です。モデルの使用方法に関する情報は、Fairseqのコードリポジトリにあるトレーニングコードや評価データ、トレーニングデータの参照情報とともに見つけることができます。
- 主なユーザー:主なユーザーは研究者と機械翻訳研究コミュニティです。
- 想定外の使用例:NLLB - 200は研究用モデルであり、本番環境でのデプロイ向けにはリリースされていません。NLLB - 200は一般ドメインのテキストデータでトレーニングされており、医療ドメインや法務ドメインなどの特定ドメインのテキストには適していません。また、ドキュメント翻訳にも使用することを想定していません。モデルは入力長が512トークンを超えないようにトレーニングされているため、より長いシーケンスを翻訳すると品質が低下する可能性があります。NLLB - 200の翻訳は公認翻訳として使用することはできません。
メトリクス
- モデルの性能評価:NLLB - 200モデルは、機械翻訳コミュニティで広く採用されているBLEU、spBLEU、chrF++メトリクスを使用して評価されました。さらに、XSTSプロトコルによる人間評価を行い、生成された翻訳の毒性を測定しました。
評価データ
- データセット:Flores - 200データセットは論文のセクション4で説明されています。
- 動機:Flores - 200はNLLB - 200の言語を完全にカバーした評価を提供するため、使用しました。
- 前処理:文分割された生テキストデータは、SentencePieceを使用して前処理されました。SentencePieceモデルはNLLB - 200とともにリリースされています。
トレーニングデータ
- モデルのトレーニングには、さまざまなソースからの並列多言語データを使用しました。データ選択と構築プロセスの詳細なレポートは論文のセクション5に記載されています。また、Common Crawlから構築された単言語データも使用しました。詳細はセクション5.2に記載されています。
🔧 技術詳細
- トレーニングアルゴリズム、パラメータ、公平性制約またはその他の適用されるアプローチ、および機能に関する情報。NLLB - 200のトレーニングに使用された正確なトレーニングアルゴリズム、データ、および高リソース言語と低リソース言語のデータ不均衡を処理する戦略は、論文で説明されています。
- 詳細情報についての論文またはその他のリソース:NLLB Team et al, No Language Left Behind: Scaling Human - Centered Machine Translation, Arxiv, 2022
🔧 倫理的考慮事項
- この研究では、技術開発において反射的なアプローチを取り、人間のユーザーを優先し、彼らに転嫁されるリスクを最小限に抑えるように努めました。論文全体で倫理的な考慮事項について考察していますが、ここでいくつかの追加ポイントを強調します。まず、この研究で選ばれた多くの言語は低リソース言語であり、特にアフリカの言語に重点が置かれています。質の高い翻訳はこれらの地域の教育や情報アクセスを改善する可能性がありますが、その一方で、デジタル素養が低いグループが誤情報やオンライン詐欺に対してより脆弱になる可能性もあります。これは、悪意のある人物が私たちの成果を悪用した場合に起こり得る想定外の使用例です。データ収集に関しては、モデル開発に使用されたトレーニングデータはウェブ上のさまざまな公開ソースから収集されました。データクリーニングに多くの努力を注いでいますが、個人を特定できる情報が完全に排除されているとは限りません。最後に、翻訳品質を最適化するために最善を尽くしましたが、モデルによる誤訳が残る可能性があります。確率は低いですが、これはこれらの翻訳に依存して重要な決定を下す人々(特に健康や安全に関連する場合)に悪影響を与える可能性があります。
🔧 注意事項と推奨事項
- 当社のモデルはWikimediaドメインでテストされており、NLLB - MDでサポートされている他のドメインについては限定的な調査しか行っていません。また、サポートされている言語には、当社のモデルが捉えられていないバリエーションが存在する可能性があります。ユーザーは適切な評価を行う必要があります。
🔧 二酸化炭素排出量の詳細
- 二酸化炭素(CO2e)の推定値は論文のセクション8.8で報告されています。
📄 ライセンス
- ライセンス:CC - BY - NC
- モデルに関する質問やコメントを送信する場所:https://github.com/facebookresearch/fairseq/issues
言語情報
サポート言語
ace, acm, acq, aeb, af, ajp, ak, als, am, apc, ar, ars, ary, arz, as, ast, awa, ayr, azb, azj, ba, bm, ban, be, bem, bn, bho, bjn, bo, bs, bug, bg, ca, ceb, cs, cjk, ckb, crh, cy, da, de, dik, dyu, dz, el, en, eo, et, eu, ee, fo, fj, fi, fon, fr, fur, fuv, gaz, gd, ga, gl, gn, gu, ht, ha, he, hi, hne, hr, hu, hy, ig, ilo, id, is, it, jv, ja, kab, kac, kam, kn, ks, ka, kk, kbp, kea, khk, km, ki, rw, ky, kmb, kmr, knc, kg, ko, lo, lij, li, ln, lt, lmo, ltg, lb, lua, lg, luo, lus, lvs, mag, mai, ml, mar, min, mk, mt, mni, mos, mi, my, nl, nn, nb, npi, nso, nus, ny, oc, ory, pag, pa, pap, pbt, pes, plt, pl, pt, prs, quy, ro, rn, ru, sg, sa, sat, scn, shn, si, sk, sl, sm, sn, sd, so, st, es, sc, sr, ss, su, sv, swh, szl, ta, taq, tt, te, tg, tl, th, ti, tpi, tn, ts, tk, tum, tr, tw, tzm, ug, uk, umb, ur, uzn, vec, vi, war, wo, xh, ydd, yo, yue, zh, zsm, zu
言語詳細
ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn
その他情報
項目 |
詳細 |
パイプラインタグ |
翻訳 |
タグ |
nllb |
データセット |
flores - 200 |
評価指標 |
bleu, spbleu, chrf++ |
推論 |
false |