Nllb 200 3.3B Ct2 Int8
N
Nllb 200 3.3B Ct2 Int8
OpenNMTによって開発
100以上の言語と文字体系をサポートする多言語処理モデルで、主流言語からさまざまな方言や少数民族言語までカバーしています
ダウンロード数 65
リリース時間 : 11/30/2023
モデル概要
このモデルは多言語テキスト処理に特化しており、アラビア文字、ラテン文字、キリル文字、チベット文字などさまざまな文字体系の言語をサポートし、翻訳、テキスト分類、情報抽出などのタスクに適しています
モデル特徴
広範な言語カバレッジ
100以上の言語をサポートし、さまざまな方言や少数民族言語を含みます
多文字体系サポート
アラビア文字、ラテン文字、キリル文字、チベット文字などさまざまな文字体系を処理可能
文化的適応性
モデルは異なる言語の文化的背景や表現習慣を考慮しています(推測)
モデル能力
多言語テキスト理解
クロスランゲージ情報抽出
言語識別
テキスト分類
機械翻訳基礎サポート
使用事例
グローバルアプリケーション
多言語コンテンツ管理
企業が多言語コンテンツを管理・分類するのを支援
コンテンツ管理効率の向上、グローバル事業拡張のサポート
ローカライゼーションサービスサポート
ローカライゼーションサービスに言語基盤サポートを提供
ローカライゼーションコストの削減、サービス品質の向上
学術研究
少数民族言語保護
少数民族言語のデジタル処理と研究をサポート
言語多様性保護の促進
🚀 Ctranslate2を用いた高速推論
CPUまたはGPU上でC++のint8推論を使用することで、推論を高速化し、メモリ使用量を2倍から4倍削減します。
facebook/nllb - 200 - 3.3Bの量子化バージョンです。
pip install ctranslate2
ctranslate2>=3.22.0と互換性のあるチェックポイントです。
device="cuda"
の場合、compute_type=int8_float16
device="cpu"
の場合、compute_type=int8
2023年12月1日にCTranslate2==3.22.0を使用して変換されました。
from ctranslate2.converters import TransformersConverter
TransformersConverter(
"facebook/nllb-200-3.3B",
activation_scales=None,
copy_files=['tokenizer.json', 'generation_config.json', 'README.md', 'special_tokens_map.json', 'tokenizer_config.json', '.gitattributes'],
load_as_float16=True,
revision=None,
low_cpu_mem_usage=True,
trust_remote_code=True,
).convert(
output_dir=str(tmp_dir),
vmap = None,
quantization="int8",
force = True,
)
📄 ライセンス
これは単なる量子化バージョンです。ライセンス条件は、元のHugging Faceリポジトリと同じです。
📚 ドキュメント
オリジナルの説明(https://huggingface.co/facebook/nllb-200-3.3B からコピー)
NLLB - 200
これはNLLB - 200の33億パラメータバリアントのモデルカードです。
この特定のチェックポイントのメトリクスを参照してください。
- トレーニングアルゴリズム、パラメータ、公平性制約、その他のアプローチ、および機能に関する情報。NLLB - 200のトレーニングに使用された正確なトレーニングアルゴリズム、データ、および高リソース言語と低リソース言語のデータ不均衡を処理する戦略は、論文に記載されています。
- 詳細情報のための論文またはその他のリソース:NLLB Team et al, No Language Left Behind: Scaling Human - Centered Machine Translation, Arxiv, 2022
- ライセンス:CC - BY - NC
- モデルに関する質問やコメントの送信先:https://github.com/facebookresearch/fairseq/issues
🔧 技術詳細
意図された用途
- 主な意図された用途:NLLB - 200は、主に機械翻訳の研究、特に低リソース言語の研究を目的とした機械翻訳モデルです。200言語間の単文翻訳を可能にします。モデルの使用方法に関する情報は、Fairseqのコードリポジトリにトレーニングコードや評価およびトレーニングデータの参照とともに記載されています。
- 主な意図されたユーザー:主なユーザーは、研究者および機械翻訳研究コミュニティです。
- 想定外の使用例:NLLB - 200は研究用モデルであり、本番環境でのデプロイ向けにはリリースされていません。NLLB - 200は一般ドメインのテキストデータでトレーニングされており、医療ドメインや法務ドメインなどの特定ドメインのテキストでの使用を意図していません。また、ドキュメント翻訳には使用されることを意図していません。モデルは入力長が512トークンを超えないようにトレーニングされているため、より長いシーケンスを翻訳すると品質が低下する可能性があります。NLLB - 200の翻訳は、公証翻訳として使用することはできません。
メトリクス
- モデルの性能測定:NLLB - 200モデルは、機械翻訳コミュニティで広く採用されているBLEU、spBLEU、およびchrF++メトリクスを使用して評価されました。さらに、XSTSプロトコルを用いた人間による評価を行い、生成された翻訳の毒性を測定しました。
評価データ
- データセット:Flores - 200データセットは、セクション4で説明されています。
- 動機:Flores - 200はNLLB - 200の言語の完全な評価カバレッジを提供するため、使用しました。
- 前処理:文分割された生テキストデータは、SentencePieceを使用して前処理されました。SentencePieceモデルはNLLB - 200とともにリリースされています。
トレーニングデータ
- モデルのトレーニングには、さまざまなソースからの並列多言語データを使用しました。データ選択と構築プロセスに関する詳細なレポートは、論文のセクション5に記載されています。また、Common Crawlから構築された単言語データも使用しました。詳細はセクション5.2に記載されています。
倫理的な考慮事項
- この研究では、技術開発において反射的なアプローチを取り、人間のユーザーを優先し、彼らに転嫁されるリスクを最小限に抑えるように努めました。論文全体で倫理的な考慮事項について考察していますが、以下にいくつかの追加ポイントを強調します。まず、この研究で選択された多くの言語は低リソース言語であり、特にアフリカの言語に重点が置かれています。質の高い翻訳はこれらのコミュニティの教育や情報アクセスを改善する可能性がありますが、そのようなアクセスはまた、デジタル素養が低いグループを誤情報やオンライン詐欺に対してより脆弱にする可能性があります。後者のシナリオは、悪意のある行為者が私たちの研究成果を悪用する場合に発生する可能性があり、これは想定外の使用例の一つと考えられます。データ収集に関しては、モデル開発に使用されたトレーニングデータは、ウェブ上のさまざまな公開ソースから収集されました。データクリーニングに多くの労力を投入しましたが、個人を特定できる情報が完全に排除されているとは限りません。最後に、翻訳品質を最適化するために最善を尽くしましたが、モデルによる誤訳が残る可能性があります。確率は低いですが、これはこれらの翻訳に依存して重要な決定を下す人々(特に健康や安全に関連する場合)に悪影響を与える可能性があります。
注意事項と推奨事項
- 当社のモデルは、Wikimediaドメインでテストされており、NLLB - MDでサポートされている他のドメインについては限られた調査しか行っていません。また、サポートされている言語には、当社のモデルがカバーしていないバリエーションがある可能性があります。ユーザーは適切な評価を行う必要があります。
二酸化炭素排出量の詳細
- 二酸化炭素(CO2e)の推定値はセクション8.8に記載されています。
その他の情報
サポートされている言語
ace
acm
acq
aeb
af
ajp
ak
als
am
apc
ar
ars
ary
arz
as
ast
awa
ayr
azb
azj
ba
bm
ban
be
bem
bn
bho
bjn
bo
bs
bug
bg
ca
ceb
cs
cjk
ckb
crh
cy
da
de
dik
dyu
dz
el
en
eo
et
eu
ee
fo
fj
fi
fon
fr
fur
fuv
gaz
gd
ga
gl
gn
gu
ht
ha
he
hi
hne
hr
hu
hy
ig
ilo
id
is
it
jv
ja
kab
kac
kam
kn
ks
ka
kk
kbp
kea
khk
km
ki
rw
ky
kmb
kmr
knc
kg
ko
lo
lij
li
ln
lt
lmo
ltg
lb
lua
lg
luo
lus
lvs
mag
mai
ml
mar
min
mk
mt
mni
mos
mi
my
nl
nn
nb
npi
nso
nus
ny
oc
ory
pag
pa
pap
pbt
pes
plt
pl
pt
prs
quy
ro
rn
ru
sg
sa
sat
scn
shn
si
sk
sl
sm
sn
sd
so
st
es
sc
sr
ss
su
sv
swh
szl
ta
taq
tt
te
tg
tl
th
ti
tpi
tn
ts
tk
tum
tr
tw
tzm
ug
uk
umb
ur
uzn
vec
vi
war
wo
xh
ydd
yo
yue
zh
zsm
zu
言語の詳細
ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn
タグ
- ctranslate2
- int8
- float16
- nllb
- translation
データセット
- flores - 200
メトリクス
- bleu
- spbleu
- chrf++
推論
推論はサポートされていません。
Phi 2 GGUF
その他
Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。
大規模言語モデル 複数言語対応
P
TheBloke
41.5M
205
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。
大規模言語モデル 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル 複数言語対応
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル 英語
R
FacebookAI
9.3M
488
Opt 125m
その他
OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。
大規模言語モデル 英語
O
facebook
6.3M
198
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル 複数言語対応
T
google-t5
5.4M
702
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98