Nllb 200 3.3B
N
Nllb 200 3.3B
facebookによって開発
100以上の言語と文字システムをサポートする多言語処理モデル
ダウンロード数 358.62k
リリース時間 : 7/8/2022
モデル概要
このモデルは、ラテン文字、アラビア文字、キリル文字など、世界中のさまざまな言語と文字システムを処理する能力を提供し、多言語テキスト処理タスクに適しています。
モデル特徴
広範な言語サポート
希少言語や方言を含む100以上の言語と複数の文字システムをサポート
多文字システム処理
ラテン文字、アラビア文字、キリル文字、デーヴァナーガリー文字などのさまざまな文字システムを処理可能
統一インターフェース
サポートするすべての言語に対して一貫したAPIインターフェースと処理方法を提供
モデル能力
テキスト分類
言語識別
基本的なテキスト処理
多言語テキスト変換
使用事例
グローバルアプリケーション
多言語コンテンツ管理
グローバルなウェブサイトやアプリケーションに多言語コンテンツサポートを提供
コンテンツの自動分類と言語識別を実現
言語学研究
希少言語処理
希少言語や方言のテキスト分析をサポート
言語保護とデジタルアーカイブ化を促進
🚀 NLLB - 200
NLLB - 200は、機械翻訳の研究、特に低リソース言語の研究に主に使用される機械翻訳モデルです。このモデルは200言語間の単文翻訳を可能にします。
🚀 クイックスタート
このモデルはNLLB - 200の33億パラメータのバリアントのモデルカードです。特定のチェックポイントのメトリクスはこちらで確認できます。
✨ 主な機能
- トレーニングアルゴリズム、パラメータ、公平性制約、その他のアプローチや機能に関する情報。NLLB - 200のトレーニングに使用された正確なトレーニングアルゴリズム、データ、および高リソース言語と低リソース言語のデータ不均衡を処理する戦略は、論文で説明されています。
- 詳細情報についての論文またはその他のリソース:NLLB Team et al, No Language Left Behind: Scaling Human - Centered Machine Translation, Arxiv, 2022
- ライセンス:CC - BY - NC
- モデルに関する質問やコメントを送信する場所:https://github.com/facebookresearch/fairseq/issues
📚 ドキュメント
想定される使用方法
- 主な想定使用用途:NLLB - 200は機械翻訳の研究、特に低リソース言語の研究を目的とした機械翻訳モデルです。200言語間の単文翻訳が可能です。モデルの使用方法に関する情報は、トレーニングコードや評価およびトレーニングデータの参照とともに、Fairseqのコードリポジトリに記載されています。
- 主な想定ユーザー:主なユーザーは研究者および機械翻訳研究コミュニティです。
- 想定外の使用ケース:NLLB - 200は研究用モデルであり、本番環境でのデプロイ用にはリリースされていません。NLLB - 200は一般ドメインのテキストデータでトレーニングされており、医療ドメインや法務ドメインなどの特定ドメインのテキストでの使用を想定していません。また、文書翻訳には使用されることを想定していません。モデルは入力長が512トークンを超えないようにトレーニングされているため、より長いシーケンスを翻訳すると品質が低下する可能性があります。NLLB - 200の翻訳は公証翻訳として使用することはできません。
メトリクス
- モデルの性能評価指標:NLLB - 200モデルは、機械翻訳コミュニティで広く採用されているBLEU、spBLEU、およびchrF++メトリクスを使用して評価されました。さらに、XSTSプロトコルを用いたヒューマン評価を行い、生成された翻訳の毒性を測定しました。
評価データ
- データセット:Flores - 200データセットについてはセクション4で説明されています。
- 動機:Flores - 200はNLLB - 200の言語の完全な評価カバレッジを提供するため、使用しました。
- 前処理:文分割された生テキストデータは、SentencePieceを使用して前処理されました。SentencePieceモデルはNLLB - 200とともにリリースされています。
トレーニングデータ
- モデルのトレーニングには、さまざまなソースからの並列多言語データを使用しました。データ選択と構築プロセスに関する詳細なレポートは、論文のセクション5に記載されています。また、Common Crawlから構築された単言語データも使用しました。詳細はセクション5.2に記載されています。
倫理的な考慮事項
- この研究では、技術開発において反射的なアプローチを取り、人間のユーザーを優先し、彼らに転嫁されるリスクを最小限に抑えることを保証しました。記事全体を通して倫理的な考慮事項を反映していますが、いくつかの追加ポイントを強調します。まず、この研究で選択された多くの言語は低リソース言語であり、特にアフリカの言語に重点が置かれています。質の高い翻訳は多くのコミュニティにおける教育や情報アクセスを改善する可能性がありますが、そのようなアクセスはまた、デジタル素養の低いグループを誤情報やオンライン詐欺の被害にさらしやすくする可能性もあります。悪意のある人物が私たちの研究成果を悪用して悪質な活動を行う場合、これは想定外の使用の一例と考えられます。データ収集に関しては、モデル開発に使用されたトレーニングデータはウェブ上のさまざまな公開ソースから収集されました。データクリーニングに多大な労力を投入しましたが、個人を特定できる情報が完全に排除されていない可能性があります。最後に、翻訳品質を最適化するために最善を尽くしましたが、モデルによって生成された誤訳が残る可能性があります。確率は低いですが、これはこれらの翻訳に依存して重要な決定を下す人々(特に健康や安全に関連する場合)に悪影響を与える可能性があります。
注意事項と推奨事項
- 当社のモデルはWikimediaドメインでテストされており、NLLB - MDでサポートされている他のドメインについては限られた調査しか行っていません。また、サポートされている言語には、モデルが捉えていないバリエーションが存在する可能性があります。ユーザーは適切な評価を行う必要があります。
二酸化炭素排出量の詳細
- 二酸化炭素(CO2e)の推定値はセクション8.8に記載されています。
📄 ライセンス
CC - BY - NC - 4.0
付録:サポート言語情報
言語一覧
ace
acm
acq
aeb
af
ajp
ak
als
am
apc
ar
ars
ary
arz
as
ast
awa
ayr
azb
azj
ba
bm
ban
be
bem
bn
bho
bjn
bo
bs
bug
bg
ca
ceb
cs
cjk
ckb
crh
cy
da
de
dik
dyu
dz
el
en
eo
et
eu
ee
fo
fj
fi
fon
fr
fur
fuv
gaz
gd
ga
gl
gn
gu
ht
ha
he
hi
hne
hr
hu
hy
ig
ilo
id
is
it
jv
ja
kab
kac
kam
kn
ks
ka
kk
kbp
kea
khk
km
ki
rw
ky
kmb
kmr
knc
kg
ko
lo
lij
li
ln
lt
lmo
ltg
lb
lua
lg
luo
lus
lvs
mag
mai
ml
mar
min
mk
mt
mni
mos
mi
my
nl
nn
nb
npi
nso
nus
ny
oc
ory
pag
pa
pap
pbt
pes
plt
pl
pt
prs
quy
ro
rn
ru
sg
sa
sat
scn
shn
si
sk
sl
sm
sn
sd
so
st
es
sc
sr
ss
su
sv
swh
szl
ta
taq
tt
te
tg
tl
th
ti
tpi
tn
ts
tk
tum
tr
tw
tzm
ug
uk
umb
ur
uzn
vec
vi
war
wo
xh
ydd
yo
yue
zh
zsm
zu
言語詳細
ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn
タグ
nllb
translation
データセット
flores - 200
評価指標
bleu
spbleu
chrf++
推論設定
inference: false
Phi 2 GGUF
その他
Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。
大規模言語モデル 複数言語対応
P
TheBloke
41.5M
205
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。
大規模言語モデル 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル 複数言語対応
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル 英語
R
FacebookAI
9.3M
488
Opt 125m
その他
OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。
大規模言語モデル 英語
O
facebook
6.3M
198
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル 複数言語対応
T
google-t5
5.4M
702
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98