nllb-200-3.3B-ct2-int8オープンソース多言語処理モデル - 100を超える言語と文字体系をサポート

ホーム

Nllb 200 3.3B Ct2 Int8

OpenNMTによって開発

100以上の言語と文字体系をサポートする多言語処理モデルで、主流言語からさまざまな方言や少数民族言語までカバーしています

大規模言語モデル

Transformers

複数言語対応#多言語サポート #クロスランゲージ翻訳 #低リソース言語処理

ダウンロード数 65

リリース時間 : 11/30/2023

モデル概要

このモデルは多言語テキスト処理に特化しており、アラビア文字、ラテン文字、キリル文字、チベット文字などさまざまな文字体系の言語をサポートし、翻訳、テキスト分類、情報抽出などのタスクに適しています

モデル特徴

広範な言語カバレッジ

100以上の言語をサポートし、さまざまな方言や少数民族言語を含みます

多文字体系サポート

アラビア文字、ラテン文字、キリル文字、チベット文字などさまざまな文字体系を処理可能

文化的適応性

モデルは異なる言語の文化的背景や表現習慣を考慮しています（推測）

モデル能力

多言語テキスト理解

クロスランゲージ情報抽出

言語識別

テキスト分類

機械翻訳基礎サポート

使用事例

グローバルアプリケーション

多言語コンテンツ管理

企業が多言語コンテンツを管理・分類するのを支援

コンテンツ管理効率の向上、グローバル事業拡張のサポート

ローカライゼーションサービスサポート

ローカライゼーションサービスに言語基盤サポートを提供

ローカライゼーションコストの削減、サービス品質の向上

学術研究

少数民族言語保護

少数民族言語のデジタル処理と研究をサポート

言語多様性保護の促進

🚀 Ctranslate2を用いた高速推論

CPUまたはGPU上でC++のint8推論を使用することで、推論を高速化し、メモリ使用量を2倍から4倍削減します。

facebook/nllb - 200 - 3.3Bの量子化バージョンです。

pip install ctranslate2

ctranslate2>=3.22.0と互換性のあるチェックポイントです。

device="cuda"の場合、compute_type=int8_float16
device="cpu"の場合、compute_type=int8

2023年12月1日にCTranslate2==3.22.0を使用して変換されました。

from ctranslate2.converters import TransformersConverter
TransformersConverter(
    "facebook/nllb-200-3.3B",
    activation_scales=None,
    copy_files=['tokenizer.json', 'generation_config.json', 'README.md', 'special_tokens_map.json', 'tokenizer_config.json', '.gitattributes'],
    load_as_float16=True,
    revision=None,
    low_cpu_mem_usage=True,
    trust_remote_code=True,
).convert(
    output_dir=str(tmp_dir),
    vmap = None, 
    quantization="int8",
    force = True,
)

📄 ライセンス

これは単なる量子化バージョンです。ライセンス条件は、元のHugging Faceリポジトリと同じです。

📚 ドキュメント

オリジナルの説明（https://huggingface.co/facebook/nllb-200-3.3B からコピー）

NLLB - 200

これはNLLB - 200の33億パラメータバリアントのモデルカードです。

この特定のチェックポイントのメトリクスを参照してください。

トレーニングアルゴリズム、パラメータ、公平性制約、その他のアプローチ、および機能に関する情報。NLLB - 200のトレーニングに使用された正確なトレーニングアルゴリズム、データ、および高リソース言語と低リソース言語のデータ不均衡を処理する戦略は、論文に記載されています。
詳細情報のための論文またはその他のリソース：NLLB Team et al, No Language Left Behind: Scaling Human - Centered Machine Translation, Arxiv, 2022
ライセンス：CC - BY - NC
モデルに関する質問やコメントの送信先：https://github.com/facebookresearch/fairseq/issues

🔧 技術詳細

意図された用途

主な意図された用途：NLLB - 200は、主に機械翻訳の研究、特に低リソース言語の研究を目的とした機械翻訳モデルです。200言語間の単文翻訳を可能にします。モデルの使用方法に関する情報は、Fairseqのコードリポジトリにトレーニングコードや評価およびトレーニングデータの参照とともに記載されています。
主な意図されたユーザー：主なユーザーは、研究者および機械翻訳研究コミュニティです。
想定外の使用例：NLLB - 200は研究用モデルであり、本番環境でのデプロイ向けにはリリースされていません。NLLB - 200は一般ドメインのテキストデータでトレーニングされており、医療ドメインや法務ドメインなどの特定ドメインのテキストでの使用を意図していません。また、ドキュメント翻訳には使用されることを意図していません。モデルは入力長が512トークンを超えないようにトレーニングされているため、より長いシーケンスを翻訳すると品質が低下する可能性があります。NLLB - 200の翻訳は、公証翻訳として使用することはできません。

メトリクス

モデルの性能測定：NLLB - 200モデルは、機械翻訳コミュニティで広く採用されているBLEU、spBLEU、およびchrF++メトリクスを使用して評価されました。さらに、XSTSプロトコルを用いた人間による評価を行い、生成された翻訳の毒性を測定しました。

評価データ

データセット：Flores - 200データセットは、セクション4で説明されています。
動機：Flores - 200はNLLB - 200の言語の完全な評価カバレッジを提供するため、使用しました。
前処理：文分割された生テキストデータは、SentencePieceを使用して前処理されました。SentencePieceモデルはNLLB - 200とともにリリースされています。

トレーニングデータ

モデルのトレーニングには、さまざまなソースからの並列多言語データを使用しました。データ選択と構築プロセスに関する詳細なレポートは、論文のセクション5に記載されています。また、Common Crawlから構築された単言語データも使用しました。詳細はセクション5.2に記載されています。

倫理的な考慮事項

この研究では、技術開発において反射的なアプローチを取り、人間のユーザーを優先し、彼らに転嫁されるリスクを最小限に抑えるように努めました。論文全体で倫理的な考慮事項について考察していますが、以下にいくつかの追加ポイントを強調します。まず、この研究で選択された多くの言語は低リソース言語であり、特にアフリカの言語に重点が置かれています。質の高い翻訳はこれらのコミュニティの教育や情報アクセスを改善する可能性がありますが、そのようなアクセスはまた、デジタル素養が低いグループを誤情報やオンライン詐欺に対してより脆弱にする可能性があります。後者のシナリオは、悪意のある行為者が私たちの研究成果を悪用する場合に発生する可能性があり、これは想定外の使用例の一つと考えられます。データ収集に関しては、モデル開発に使用されたトレーニングデータは、ウェブ上のさまざまな公開ソースから収集されました。データクリーニングに多くの労力を投入しましたが、個人を特定できる情報が完全に排除されているとは限りません。最後に、翻訳品質を最適化するために最善を尽くしましたが、モデルによる誤訳が残る可能性があります。確率は低いですが、これはこれらの翻訳に依存して重要な決定を下す人々（特に健康や安全に関連する場合）に悪影響を与える可能性があります。

注意事項と推奨事項

当社のモデルは、Wikimediaドメインでテストされており、NLLB - MDでサポートされている他のドメインについては限られた調査しか行っていません。また、サポートされている言語には、当社のモデルがカバーしていないバリエーションがある可能性があります。ユーザーは適切な評価を行う必要があります。

二酸化炭素排出量の詳細

二酸化炭素（CO2e）の推定値はセクション8.8に記載されています。

その他の情報

サポートされている言語

ace
acm
acq
aeb
af
ajp
ak
als
am
apc
ar
ars
ary
arz
as
ast
awa
ayr
azb
azj
ba
bm
ban
be
bem
bn
bho
bjn
bo
bs
bug
bg
ca
ceb
cs
cjk
ckb
crh
cy
da
de
dik
dyu
dz
el
en
eo
et
eu
ee
fo
fj
fi
fon
fr
fur
fuv
gaz
gd
ga
gl
gn
gu
ht
ha
he
hi
hne
hr
hu
hy
ig
ilo
id
is
it
jv
ja
kab
kac
kam
kn
ks
ka
kk
kbp
kea
khk
km
ki
rw
ky
kmb
kmr
knc
kg
ko
lo
lij
li
ln
lt
lmo
ltg
lb
lua
lg
luo
lus
lvs
mag
mai
ml
mar
min
mk
mt
mni
mos
mi
my
nl
nn
nb
npi
nso
nus
ny
oc
ory
pag
pa
pap
pbt
pes
plt
pl
pt
prs
quy
ro
rn
ru
sg
sa
sat
scn
shn
si
sk
sl
sm
sn
sd
so
st
es
sc
sr
ss
su
sv
swh
szl
ta
taq
tt
te
tg
tl
th
ti
tpi
tn
ts
tk
tum
tr
tw
tzm
ug
uk
umb
ur
uzn
vec
vi
war
wo
xh
ydd
yo
yue
zh
zsm
zu

言語の詳細

ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn