Nllb 200 Distilled 1.3B Ct2 Int8
NLLB-200 Distilled 1.3BはMetaが開発したニューラル機械翻訳モデルで、200言語間の翻訳をサポートし、CTranslate2を使用した効率的な推論が可能です。
ダウンロード数 101
リリース時間 : 11/30/2023
モデル概要
これはNo Language Left Behind (NLLB)プロジェクトに基づく蒸留版翻訳モデルで、効率的な多言語翻訳に特化し、特にメモリ使用量と推論速度を最適化しています。
モデル特徴
多言語サポート
200言語間の翻訳をサポートし、世界の主要な言語と方言のほとんどをカバーします
効率的な推論
CTranslate2を使用したint8量子化により、メモリ使用量を2-4倍削減しながら推論速度を維持します
最適化されたデプロイ
CPUとGPUでの効率的な実行をサポートし、本番環境でのデプロイに適しています
モデル能力
テキスト翻訳
多言語翻訳
低リソース言語翻訳
使用事例
グローバルアプリケーション
多言語コンテンツのローカライズ
グローバルアプリケーション向けに多言語コンテンツの翻訳を提供
200言語間の相互翻訳をサポート
研究アプリケーション
低リソース言語研究
言語学研究や低リソース言語保護のための翻訳サポートを提供
🚀 Fast-Inference with Ctranslate2
CTranslate2を使用したint8推論により、CPUまたはGPU上のC++で推論を高速化し、メモリ使用量を2倍から4倍削減します。
facebook/nllb-200-distilled-1.3Bの量子化バージョンです。
🚀 クイックスタート
インストール
pip install ctranslate2
チェックポイント互換性
このチェックポイントはctranslate2>=3.22.0と互換性があります。
device="cuda"
の場合、compute_type=int8_float16
を使用します。device="cpu"
の場合、compute_type=int8
を使用します。
変換コード
2023年11月30日にCTranslate2==3.22.0を使用して変換されました。
from ctranslate2.converters import TransformersConverter
TransformersConverter(
"facebook/nllb-200-distilled-1.3B",
activation_scales=None,
copy_files=['tokenizer.json', 'generation_config.json', 'README.md', 'special_tokens_map.json', 'tokenizer_config.json', '.gitattributes'],
load_as_float16=True,
revision=None,
low_cpu_mem_usage=True,
trust_remote_code=True,
).convert(
output_dir=str(tmp_dir),
vmap = None,
quantization="int8",
force = True,
)
📄 ライセンス
これは単なる量子化バージョンです。ライセンス条件は、元のHugging Faceリポジトリと同じです。
📚 ドキュメント
オリジナルの説明
NLLB-200
これはNLLB-200の蒸留1.3Bバリアントのモデルカードです。
この特定のチェックポイントのメトリクスがこちらです。
- トレーニングアルゴリズム、パラメータ、公平性制約、またはその他の適用されるアプローチ、および機能に関する情報。NLLB-200のトレーニングに使用された正確なトレーニングアルゴリズム、データ、および高リソース言語と低リソース言語のデータ不均衡を処理するための戦略は、論文で説明されています。
- 詳細情報のための論文またはその他のリソース:NLLBチーム他、No Language Left Behind: Scaling Human-Centered Machine Translation, Arxiv, 2022
- モデルに関する質問やコメントを送信する場所:https://github.com/facebookresearch/fairseq/issues
想定される使用方法
- 主な想定使用用途:NLLB-200は、主に機械翻訳の研究、特に低リソース言語の研究に使用される機械翻訳モデルです。200言語間の単文翻訳を可能にします。モデルの使用方法に関する情報は、Fairseqのコードリポジトリにトレーニングコードや評価およびトレーニングデータへの参照とともに記載されています。
- 主な想定ユーザー:主なユーザーは、研究者および機械翻訳研究コミュニティです。
- 想定外の使用ケース:NLLB-200は研究用モデルであり、本番環境でのデプロイ向けにはリリースされていません。NLLB-200は一般ドメインのテキストデータでトレーニングされており、医療ドメインや法務ドメインなどの特定ドメインのテキストでの使用を想定していません。このモデルは文書翻訳に使用することを想定していません。モデルは入力長が512トークンを超えないようにトレーニングされているため、より長いシーケンスを翻訳すると品質が低下する可能性があります。NLLB-200の翻訳は、公認翻訳として使用することはできません。
メトリクス
- モデルのパフォーマンス測定:NLLB-200モデルは、機械翻訳コミュニティで広く採用されているBLEU、spBLEU、およびchrF++メトリクスを使用して評価されました。さらに、XSTSプロトコルによる人間による評価を行い、生成された翻訳の毒性を測定しました。
評価データ
- データセット:Flores-200データセットは、セクション4で説明されています。
- 動機:Flores-200は、NLLB-200でサポートされている言語の完全な評価カバレッジを提供するため、使用されました。
- 前処理:文分割された生テキストデータは、SentencePieceを使用して前処理されました。SentencePieceモデルは、NLLB-200とともにリリースされています。
トレーニングデータ
- このモデルのトレーニングには、さまざまなソースからの並列多言語データが使用されました。データ選択と構築プロセスに関する詳細なレポートは、論文のセクション5で提供されています。また、Common Crawlから構築された単言語データも使用されました。詳細はセクション5.2で提供されています。
倫理的配慮
- この研究では、技術開発において反射的アプローチを取り、人間のユーザーを優先し、彼らに転嫁されるリスクを最小限に抑えるように努めました。論文全体で倫理的配慮について考察していますが、以下にいくつかの追加ポイントを強調します。まず、この研究で選択された多くの言語は低リソース言語であり、特にアフリカの言語に重点が置かれています。質の高い翻訳は、多くのコミュニティにおける教育や情報アクセスを改善する可能性がありますが、そのようなアクセスはまた、デジタル素養が低いグループを誤情報やオンライン詐欺に対してより脆弱にする可能性もあります。後者のシナリオは、悪意のある行為者が私たちの研究成果を悪用した場合に発生する可能性があり、これは想定外の使用の一例と考えられます。データ収集に関しては、モデル開発に使用されたトレーニングデータは、ウェブ上のさまざまな公開ソースから収集されました。データクリーニングに多大な努力を注いでいますが、個人を特定できる情報が完全に排除されているとは限りません。最後に、翻訳品質を最適化するために最善を尽くしましたが、モデルによって生成された誤訳が残る可能性があります。確率は低いですが、これは、これらの翻訳に依存して重要な決定を下す人々(特に健康や安全に関連する場合)に悪影響を及ぼす可能性があります。
注意事項と推奨事項
- 当社のモデルは、Wikimediaドメインでテストされており、NLLB-MDでサポートされている他のドメインについては限定的な調査しか行っていません。また、サポートされている言語には、当社のモデルが捉えていないバリエーションが存在する可能性があります。ユーザーは適切な評価を行う必要があります。
二酸化炭素排出量の詳細
- 二酸化炭素(CO2e)の推定値は、セクション8.8で報告されています。
サポートされている言語
言語コード |
---|
ace |
acm |
acq |
aeb |
af |
ajp |
ak |
als |
am |
apc |
ar |
ars |
ary |
arz |
as |
ast |
awa |
ayr |
azb |
azj |
ba |
bm |
ban |
be |
bem |
bn |
bho |
bjn |
bo |
bs |
bug |
bg |
ca |
ceb |
cs |
cjk |
ckb |
crh |
cy |
da |
de |
dik |
dyu |
dz |
el |
en |
eo |
et |
eu |
ee |
fo |
fj |
fi |
fon |
fr |
fur |
fuv |
gaz |
gd |
ga |
gl |
gn |
gu |
ht |
ha |
he |
hi |
hne |
hr |
hu |
hy |
ig |
ilo |
id |
is |
it |
jv |
ja |
kab |
kac |
kam |
kn |
ks |
ka |
kk |
kbp |
kea |
khk |
km |
ki |
rw |
ky |
kmb |
kmr |
knc |
kg |
ko |
lo |
lij |
li |
ln |
lt |
lmo |
ltg |
lb |
lua |
lg |
luo |
lus |
lvs |
mag |
mai |
ml |
mar |
min |
mk |
mt |
mni |
mos |
mi |
my |
nl |
nn |
nb |
npi |
nso |
nus |
ny |
oc |
ory |
pag |
pa |
pap |
pbt |
pes |
plt |
pl |
pt |
prs |
quy |
ro |
rn |
ru |
sg |
sa |
sat |
scn |
shn |
si |
sk |
sl |
sm |
sn |
sd |
so |
st |
es |
sc |
sr |
ss |
su |
sv |
swh |
szl |
ta |
taq |
tt |
te |
tg |
tl |
th |
ti |
tpi |
tn |
ts |
tk |
tum |
tr |
tw |
tzm |
ug |
uk |
umb |
ur |
uzn |
vec |
vi |
war |
wo |
xh |
ydd |
yo |
yue |
zh |
zsm |
zu |
言語詳細
言語コード | 詳細 |
---|---|
ace | ace_Arab, ace_Latn |
acm | acm_Arab |
acq | acq_Arab |
aeb | aeb_Arab |
af | afr_Latn |
ajp | ajp_Arab |
ak | aka_Latn |
als | als_Latn |
am | amh_Ethi |
apc | apc_Arab |
ar | arb_Arab |
ars | ars_Arab |
ary | ary_Arab |
arz | arz_Arab |
as | asm_Beng |
ast | ast_Latn |
awa | awa_Deva |
ayr | ayr_Latn |
azb | azb_Arab |
azj | azj_Latn |
ba | bak_Cyrl |
bm | bam_Latn |
ban | ban_Latn |
be | bel_Cyrl |
bem | bem_Latn |
bn | ben_Beng |
bho | bho_Deva |
bjn | bjn_Arab, bjn_Latn |
bo | bod_Tibt |
bs | bos_Latn |
bug | bug_Latn |
bg | bul_Cyrl |
ca | cat_Latn |
ceb | ceb_Latn |
cs | ces_Latn |
cjk | cjk_Latn |
ckb | ckb_Arab |
crh | crh_Latn |
cy | cym_Latn |
da | dan_Latn |
de | deu_Latn |
dik | dik_Latn |
dyu | dyu_Latn |
dz | dzo_Tibt |
el | ell_Grek |
en | eng_Latn |
eo | epo_Latn |
et | est_Latn |
eu | eus_Latn |
ee | ewe_Latn |
fo | fao_Latn |
fj | fij_Latn |
fi | fin_Latn |
fon | fon_Latn |
fr | fra_Latn |
fur | fur_Latn |
fuv | fuv_Latn |
gaz | gaz_Latn |
gd | gla_Latn |
ga | gle_Latn |
gl | glg_Latn |
gn | grn_Latn |
gu | guj_Gujr |
ht | hat_Latn |
ha | hau_Latn |
he | heb_Hebr |
hi | hin_Deva |
hne | hne_Deva |
hr | hrv_Latn |
hu | hun_Latn |
hy | hye_Armn |
ig | ibo_Latn |
ilo | ilo_Latn |
id | ind_Latn |
is | isl_Latn |
it | ita_Latn |
jv | jav_Latn |
ja | jpn_Jpan |
kab | kab_Latn |
kac | kac_Latn |
kam | kam_Latn |
kn | kan_Knda |
ks | kas_Arab, kas_Deva |
ka | kat_Geor |
kk | kaz_Cyrl |
kbp | kbp_Latn |
kea | kea_Latn |
khk | khk_Cyrl |
km | khm_Khmr |
ki | kik_Latn |
rw | kin_Latn |
ky | kir_Cyrl |
kmb | kmb_Latn |
kmr | kmr_Latn |
knc | knc_Arab, knc_Latn |
kg | kon_Latn |
ko | kor_Hang |
lo | lao_Laoo |
lij | lij_Latn |
li | lim_Latn |
ln | lin_Latn |
lt | lit_Latn |
lmo | lmo_Latn |
ltg | ltg_Latn |
lb | ltz_Latn |
lua | lua_Latn |
lg | lug_Latn |
luo | luo_Latn |
lus | lus_Latn |
lvs | lvs_Latn |
mag | mag_Deva |
mai | mai_Deva |
ml | mal_Mlym |
mar | mar_Deva |
min | min_Latn |
mk | mkd_Cyrl |
mt | mlt_Latn |
mni | mni_Beng |
mos | mos_Latn |
mi | mri_Latn |
my | mya_Mymr |
nl | nld_Latn |
nn | nno_Latn |
nb | nob_Latn |
npi | npi_Deva |
nso | nso_Latn |
nus | nus_Latn |
ny | nya_Latn |
oc | oci_Latn |
ory | ory_Orya |
pag | pag_Latn |
pa | pan_Guru |
pap | pap_Latn |
pbt | pbt_Arab |
pes | pes_Arab |
plt | plt_Latn |
pl | pol_Latn |
pt | por_Latn |
prs | prs_Arab |
quy | quy_Latn |
ro | ron_Latn |
rn | run_Latn |
ru | rus_Cyrl |
sg | sag_Latn |
sa | san_Deva |
sat | sat_Beng |
scn | scn_Latn |
shn | shn_Mymr |
si | sin_Sinh |
sk | slk_Latn |
sl | slv_Latn |
sm | smo_Latn |
sn | sna_Latn |
sd | snd_Arab |
so | som_Latn |
st | sot_Latn |
es | spa_Latn |
sc | srd_Latn |
sr | srp_Cyrl |
ss | ssw_Latn |
su | sun_Latn |
sv | swe_Latn |
swh | swh_Latn |
szl | szl_Latn |
ta | tam_Taml |
taq | taq_Latn, taq_Tfng |
tt | tat_Cyrl |
te | tel_Telu |
tg | tgk_Cyrl |
tl | tgl_Latn |
th | tha_Thai |
ti | tir_Ethi |
tpi | tpi_Latn |
tn | tsn_Latn |
ts | tso_Latn |
tk | tuk_Latn |
tum | tum_Latn |
tr | tur_Latn |
tw | twi_Latn |
tzm | tzm_Tfng |
ug | uig_Arab |
uk | ukr_Cyrl |
umb | umb_Latn |
ur | urd_Arab |
uzn | uzn_Latn |
vec | vec_Latn |
vi | vie_Latn |
war | war_Latn |
wo | wol_Latn |
xh | xho_Latn |
ydd | ydd_Hebr |
yo | yor_Latn |
yue | yue_Hant |
zh | zho_Hans, zho_Hant |
zsm | zsm_Latn |
zu | zul_Latn |
タグ
- ctranslate2
- int8
- float16
- nllb
- translation
データセット
- flores-200
メトリクス
- bleu
- spbleu
- chrf++
推論
推論はサポートされていません。
M2m100 418M
MIT
M2M100は100言語に対応した9900の翻訳方向をサポートする多言語エンコーダーデコーダーモデルです
機械翻訳 複数言語対応
M
facebook
1.6M
299
Opus Mt Fr En
Apache-2.0
Transformerベースのフランス語から英語への神経機械翻訳モデルで、Helsinki-NLPチームによって開発され、OPUS多言語データセットを用いて訓練されました。
機械翻訳 複数言語対応
O
Helsinki-NLP
1.2M
44
Opus Mt Ar En
Apache-2.0
OPUSデータを基に訓練された、transformer-alignアーキテクチャを採用したアラビア語から英語への機械翻訳モデル
機械翻訳 複数言語対応
O
Helsinki-NLP
579.41k
42
M2m100 1.2B
MIT
M2M100は100言語をサポートする多言語機械翻訳モデルで、9900の翻訳方向間で直接翻訳できます。
機械翻訳 複数言語対応
M
facebook
501.82k
167
Indictrans2 Indic En 1B
MIT
25のインド言語と英語の相互翻訳をサポートする1.1Bパラメータ規模の機械翻訳モデル、AI4Bharatプロジェクトによって開発
機械翻訳
Transformers 複数言語対応

I
ai4bharat
473.63k
14
Opus Mt En Zh
Apache-2.0
Transformerアーキテクチャに基づく英語 - 中国語多方言翻訳モデルで、英語から13種類の中国語バリエーションへの翻訳タスクをサポートします。
機械翻訳 複数言語対応
O
Helsinki-NLP
442.08k
367
Opus Mt Zh En
ヘルシンキ大学によって開発された、OPUSコーパスに基づく中国語から英語への機械翻訳モデル
機械翻訳 複数言語対応
O
Helsinki-NLP
441.24k
505
Mbart Large 50 Many To Many Mmt
mBART-large-50をファインチューニングした多言語機械翻訳モデルで、50言語間の相互翻訳をサポート
機械翻訳 複数言語対応
M
facebook
404.66k
357
Opus Mt De En
Apache-2.0
opus-mt-de-enは、transformer-alignアーキテクチャに基づくドイツ語から英語への機械翻訳モデルで、Helsinki-NLPチームによって開発されました。
機械翻訳 複数言語対応
O
Helsinki-NLP
404.33k
44
Opus Mt Es En
Apache-2.0
これはTransformerアーキテクチャに基づくスペイン語から英語への機械翻訳モデルで、Helsinki - NLPチームによって開発されました。
機械翻訳
Transformers 複数言語対応

O
Helsinki-NLP
385.40k
71
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98