nllb-200-3.3Bオープンソース多言語処理モデル - 100種以上の言語文字システムを無料でサポート

Home

Nllb 200 3.3B

Developed by facebook

100以上の言語と文字システムをサポートする多言語処理モデル

大規模言語モデル

Transformers

Supports Multiple Languages#多言語サポート #異なる文字システムの処理 #低リソース言語の最適化

Downloads 358.62k

Release Time : 7/8/2022

Model Overview

このモデルは、ラテン文字、アラビア文字、キリル文字など、世界中のさまざまな言語と文字システムを処理する能力を提供し、多言語テキスト処理タスクに適しています。

Model Features

広範な言語サポート

希少言語や方言を含む100以上の言語と複数の文字システムをサポート

多文字システム処理

ラテン文字、アラビア文字、キリル文字、デーヴァナーガリー文字などのさまざまな文字システムを処理可能

統一インターフェース

サポートするすべての言語に対して一貫したAPIインターフェースと処理方法を提供

Model Capabilities

テキスト分類

言語識別

基本的なテキスト処理

多言語テキスト変換

Use Cases

グローバルアプリケーション

多言語コンテンツ管理

グローバルなウェブサイトやアプリケーションに多言語コンテンツサポートを提供

コンテンツの自動分類と言語識別を実現

言語学研究

希少言語処理

希少言語や方言のテキスト分析をサポート

言語保護とデジタルアーカイブ化を促進

🚀 NLLB - 200

NLLB - 200は、機械翻訳の研究、特に低リソース言語の研究に主に使用される機械翻訳モデルです。このモデルは200言語間の単文翻訳を可能にします。

🚀 クイックスタート

このモデルはNLLB - 200の33億パラメータのバリアントのモデルカードです。特定のチェックポイントのメトリクスはこちらで確認できます。

✨ 主な機能

トレーニングアルゴリズム、パラメータ、公平性制約、その他のアプローチや機能に関する情報。NLLB - 200のトレーニングに使用された正確なトレーニングアルゴリズム、データ、および高リソース言語と低リソース言語のデータ不均衡を処理する戦略は、論文で説明されています。
詳細情報についての論文またはその他のリソース：NLLB Team et al, No Language Left Behind: Scaling Human - Centered Machine Translation, Arxiv, 2022
ライセンス：CC - BY - NC
モデルに関する質問やコメントを送信する場所：https://github.com/facebookresearch/fairseq/issues

📚 ドキュメント

想定される使用方法

主な想定使用用途：NLLB - 200は機械翻訳の研究、特に低リソース言語の研究を目的とした機械翻訳モデルです。200言語間の単文翻訳が可能です。モデルの使用方法に関する情報は、トレーニングコードや評価およびトレーニングデータの参照とともに、Fairseqのコードリポジトリに記載されています。
主な想定ユーザー：主なユーザーは研究者および機械翻訳研究コミュニティです。
想定外の使用ケース：NLLB - 200は研究用モデルであり、本番環境でのデプロイ用にはリリースされていません。NLLB - 200は一般ドメインのテキストデータでトレーニングされており、医療ドメインや法務ドメインなどの特定ドメインのテキストでの使用を想定していません。また、文書翻訳には使用されることを想定していません。モデルは入力長が512トークンを超えないようにトレーニングされているため、より長いシーケンスを翻訳すると品質が低下する可能性があります。NLLB - 200の翻訳は公証翻訳として使用することはできません。

メトリクス

モデルの性能評価指標：NLLB - 200モデルは、機械翻訳コミュニティで広く採用されているBLEU、spBLEU、およびchrF++メトリクスを使用して評価されました。さらに、XSTSプロトコルを用いたヒューマン評価を行い、生成された翻訳の毒性を測定しました。

評価データ

データセット：Flores - 200データセットについてはセクション4で説明されています。
動機：Flores - 200はNLLB - 200の言語の完全な評価カバレッジを提供するため、使用しました。
前処理：文分割された生テキストデータは、SentencePieceを使用して前処理されました。SentencePieceモデルはNLLB - 200とともにリリースされています。

トレーニングデータ

モデルのトレーニングには、さまざまなソースからの並列多言語データを使用しました。データ選択と構築プロセスに関する詳細なレポートは、論文のセクション5に記載されています。また、Common Crawlから構築された単言語データも使用しました。詳細はセクション5.2に記載されています。

倫理的な考慮事項

この研究では、技術開発において反射的なアプローチを取り、人間のユーザーを優先し、彼らに転嫁されるリスクを最小限に抑えることを保証しました。記事全体を通して倫理的な考慮事項を反映していますが、いくつかの追加ポイントを強調します。まず、この研究で選択された多くの言語は低リソース言語であり、特にアフリカの言語に重点が置かれています。質の高い翻訳は多くのコミュニティにおける教育や情報アクセスを改善する可能性がありますが、そのようなアクセスはまた、デジタル素養の低いグループを誤情報やオンライン詐欺の被害にさらしやすくする可能性もあります。悪意のある人物が私たちの研究成果を悪用して悪質な活動を行う場合、これは想定外の使用の一例と考えられます。データ収集に関しては、モデル開発に使用されたトレーニングデータはウェブ上のさまざまな公開ソースから収集されました。データクリーニングに多大な労力を投入しましたが、個人を特定できる情報が完全に排除されていない可能性があります。最後に、翻訳品質を最適化するために最善を尽くしましたが、モデルによって生成された誤訳が残る可能性があります。確率は低いですが、これはこれらの翻訳に依存して重要な決定を下す人々（特に健康や安全に関連する場合）に悪影響を与える可能性があります。

注意事項と推奨事項

当社のモデルはWikimediaドメインでテストされており、NLLB - MDでサポートされている他のドメインについては限られた調査しか行っていません。また、サポートされている言語には、モデルが捉えていないバリエーションが存在する可能性があります。ユーザーは適切な評価を行う必要があります。

二酸化炭素排出量の詳細

二酸化炭素（CO2e）の推定値はセクション8.8に記載されています。

📄 ライセンス

CC - BY - NC - 4.0

付録：サポート言語情報

言語一覧

ace
acm
acq
aeb
af
ajp
ak
als
am
apc
ar
ars
ary
arz
as
ast
awa
ayr
azb
azj
ba
bm
ban
be
bem
bn
bho
bjn
bo
bs
bug
bg
ca
ceb
cs
cjk
ckb
crh
cy
da
de
dik
dyu
dz
el
en
eo
et
eu
ee
fo
fj
fi
fon
fr
fur
fuv
gaz
gd
ga
gl
gn
gu
ht
ha
he
hi
hne
hr
hu
hy
ig
ilo
id
is
it
jv
ja
kab
kac
kam
kn
ks
ka
kk
kbp
kea
khk
km
ki
rw
ky
kmb
kmr
knc
kg
ko
lo
lij
li
ln
lt
lmo
ltg
lb
lua
lg
luo
lus
lvs
mag
mai
ml
mar
min
mk
mt
mni
mos
mi
my
nl
nn
nb
npi
nso
nus
ny
oc
ory
pag
pa
pap
pbt
pes
plt
pl
pt
prs
quy
ro
rn
ru
sg
sa
sat
scn
shn
si
sk
sl
sm
sn
sd
so
st
es
sc
sr
ss
su
sv
swh
szl
ta
taq
tt
te
tg
tl
th
ti
tpi
tn
ts
tk
tum
tr
tw
tzm
ug
uk
umb
ur
uzn
vec
vi
war
wo
xh
ydd
yo
yue
zh
zsm
zu

言語詳細

ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn