nllb-200-distilled-1.3Bオープンソース多言語処理モデル

ホーム

Nllb 200 Distilled 1.3B

facebookによって開発

100以上の言語と文字システムをサポートする多言語処理モデルコレクション

大規模言語モデル

Transformers

複数言語対応#多言語サポート #混合文字システム #低リソース言語最適化

ダウンロード数 117.90k

リリース時間 : 7/8/2022

モデル概要

このモデルコレクションは、主流言語から地域言語まで幅広くサポートする多言語処理能力を備えており、テキスト処理や翻訳など様々な自然言語処理タスクに適しています。

モデル特徴

広範な言語サポート

100以上の言語と文字システムをサポートし、様々なアラビア語方言や地域言語を含みます

多文字システム処理

ラテン文字、アラビア文字、キリル文字、デーヴァナーガリー文字など様々な文字システムを処理可能

方言サポート

特にエジプト、スーダン、モロッコなど様々なアラビア語方言や地域バリエーションを含んでいます

モデル能力

多言語テキスト処理

言語識別

テキスト翻訳

クロスランゲージ情報検索

使用事例

翻訳サービス

多言語ドキュメント翻訳

ドキュメントを異なる言語間で翻訳し、希少な言語ペアをサポート

高精度な異言語間コミュニケーションを実現

コンテンツローカライゼーション

地域別コンテンツ適応

異なる地域のユーザーに方言の違いを考慮したローカライズドコンテンツを提供

地域ユーザーのコンテンツ受容性を向上

🚀 NLLB - 200

NLLB - 200は、機械翻訳の研究、特に低リソース言語の研究を目的とした機械翻訳モデルです。このモデルは200言語間の単文翻訳を可能にします。

🚀 クイックスタート

これはNLLB - 200の13億パラメータの蒸留バリアントのモデルカードです。特定のチェックポイントのメトリクスはこちらで確認できます。

✨ 主な機能

訓練アルゴリズム、パラメータ、公平性制約、その他の適用アプローチや機能に関する情報。NLLB - 200を訓練するために使用された正確な訓練アルゴリズム、データ、および高リソース言語と低リソース言語のデータ不均衡を処理する戦略は、論文に記載されています。
詳細情報に関する論文またはその他のリソース：NLLB Team et al, No Language Left Behind: Scaling Human - Centered Machine Translation, Arxiv, 2022
ライセンス：CC - BY - NC
モデルに関する質問やコメントを送信する場所：https://github.com/facebookresearch/fairseq/issues

📚 ドキュメント

想定される使用方法

主な想定使用目的：NLLB - 200は、機械翻訳の研究、特に低リソース言語の研究を主な目的とした機械翻訳モデルです。200言語間の単文翻訳が可能です。モデルの使用方法に関する情報は、Fairseqのコードリポジトリに訓練コードや評価および訓練データの参照とともに記載されています。
主な想定ユーザー：主なユーザーは研究者および機械翻訳研究コミュニティです。
想定外の使用ケース：NLLB - 200は研究用モデルであり、本番環境でのデプロイ向けにはリリースされていません。NLLB - 200は一般ドメインのテキストデータで訓練されており、医療ドメインや法務ドメインなどの特定ドメインのテキストでの使用を想定していません。また、文書翻訳には使用されることを想定していません。モデルは入力長が512トークンを超えないように訓練されているため、より長いシーケンスを翻訳すると品質が低下する可能性があります。NLLB - 200の翻訳は公認翻訳として使用することはできません。

メトリクス

モデルの性能評価指標：NLLB - 200モデルは、機械翻訳コミュニティで広く採用されているBLEU、spBLEU、およびchrF++メトリクスを使用して評価されました。さらに、XSTSプロトコルによる人間による評価を行い、生成された翻訳の毒性を測定しました。

評価データ

データセット：Flores - 200データセットについてはセクション4で説明されています。
動機：Flores - 200はNLLB - 200の言語の完全な評価カバレッジを提供するため、使用しました。
前処理：文分割された生テキストデータはSentencePieceを使用して前処理されました。SentencePieceモデルはNLLB - 200とともにリリースされています。

訓練データ

モデルの訓練には、さまざまなソースからの並列多言語データを使用しました。データ選択と構築プロセスに関する詳細なレポートは、論文のセクション5で提供されています。また、Common Crawlから構築された単言語データも使用しました。詳細はセクション5.2で提供されています。

倫理的な考慮事項

この研究では、技術開発において反射的なアプローチを取り、人間のユーザーを優先し、彼らに転嫁されるリスクを最小限に抑えるようにしました。論文全体で倫理的な考慮事項について考察していますが、ここではいくつかの追加ポイントを強調します。まず、この研究で選択された多くの言語は低リソース言語であり、特にアフリカの言語に重点が置かれています。質の高い翻訳はこれらのコミュニティの教育や情報アクセスを改善する可能性がありますが、そのようなアクセスはまた、デジタルリテラシーのレベルが低いグループを誤情報やオンライン詐欺の被害にさらしやすくする可能性があります。後者のシナリオは、悪意のある行為者が私たちの研究成果を悪用して悪質な活動を行う場合に発生する可能性があり、これは想定外の使用の一例と考えられます。データ収集に関しては、モデル開発に使用された訓練データはウェブ上のさまざまな公開ソースから収集されました。データクリーニングに多大な努力を払ったにもかかわらず、個人を特定できる情報が完全に排除されていない可能性があります。最後に、翻訳品質を最適化するために最善を尽くしましたが、モデルによる誤訳が残る可能性があります。確率は低いですが、これはこれらの翻訳に依存して重要な決定を下す人々（特に健康や安全に関連する場合）に悪影響を与える可能性があります。

注意事項と推奨事項

当社のモデルはWikimediaドメインでテストされており、NLLB - MDでサポートされている他のドメインについては限定的な調査しか行っていません。また、サポートされている言語には、当社のモデルがカバーできていないバリエーションがある可能性があります。ユーザーは適切な評価を行う必要があります。

炭素フットプリントの詳細

二酸化炭素（CO2e）の推定値はセクション8.8で報告されています。

📄 ライセンス

CC - BY - NC

サポート言語一覧

ace
acm
acq
aeb
af
ajp
ak
als
am
apc
ar
ars
ary
arz
as
ast
awa
ayr
azb
azj
ba
bm
ban
be
bem
bn
bho
bjn
bo
bs
bug
bg
ca
ceb
cs
cjk
ckb
crh
cy
da
de
dik
dyu
dz
el
en
eo
et
eu
ee
fo
fj
fi
fon
fr
fur
fuv
gaz
gd
ga
gl
gn
gu
ht
ha
he
hi
hne
hr
hu
hy
ig
ilo
id
is
it
jv
ja
kab
kac
kam
kn
ks
ka
kk
kbp
kea
khk
km
ki
rw
ky
kmb
kmr
knc
kg
ko
lo
lij
li
ln
lt
lmo
ltg
lb
lua
lg
luo
lus
lvs
mag
mai
ml
mar
min
mk
mt
mni
mos
mi
my
nl
nn
nb
npi
nso
nus
ny
oc
ory
pag
pa
pap
pbt
pes
plt
pl
pt
prs
quy
ro
rn
ru
sg
sa
sat
scn
shn
si
sk
sl
sm
sn
sd
so
st
es
sc
sr
ss
su
sv
swh
szl
ta
taq
tt
te
tg
tl
th
ti
tpi
tn
ts
tk
tum
tr
tw
tzm
ug
uk
umb
ur
uzn
vec
vi
war
wo
xh
ydd
yo
yue
zh
zsm
zu

言語詳細

ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn