Nllb Moe 54b 4bit
N
Nllb Moe 54b 4bit
KnutJaegersbergによって開発
NLLB-MoEはMetaが開発した混合専門家機械翻訳モデルで、200言語をサポートし、現在最も先進的なオープンアクセス機械翻訳モデルの一つです。
ダウンロード数 17
リリース時間 : 12/16/2023
モデル概要
NLLB-MoEは混合専門家アーキテクチャに基づく大規模多言語機械翻訳モデルで、低リソース言語の翻訳問題解決に焦点を当て、専門家出力マスキング技術で性能を最適化しています。
モデル特徴
超大規模多言語サポート
200言語の相互翻訳をサポートし、多くの低リソース言語を含む
混合専門家アーキテクチャ
MoEアーキテクチャを採用し、効率的な大規模モデル訓練と推論を実現
専門家出力マスキング
専門家出力マスキング技術を使用してモデル性能を最適化
効率的な推論最適化
bitsandbytesとHugging Face Transformersによる最適化で高速ロードを実現
モデル能力
テキスト翻訳
多言語相互翻訳
低リソース言語処理
使用事例
グローバルアプリケーション
多言語コンテンツローカライゼーション
グローバルアプリやウェブサイト向けに多言語コンテンツ翻訳を提供
200言語の正確な相互翻訳をサポート
低リソース言語保護
絶滅危機や低リソース言語に機械翻訳サポートを提供
少数言語が主流言語と同等の翻訳品質を獲得
学術研究
クロスランゲージ研究
学術論文や研究資料の言語間変換をサポート
🚀 NLLB - MoE
このモデルは、多言語翻訳に特化したモデルで、多くの言語間での翻訳を可能にします。高速なロードと比較的少ないVRAM使用量で動作し、機械翻訳分野での最先端のオープンアクセスモデルとなっています。
🚀 クイックスタート
このモデルを使用するには、bitsandbytesを最新バージョンにアップグレードし、以下のhf transformersのプルリクエストをインストールします。 https://github.com/huggingface/transformers/pull/26037
この方法を使うと、VRAMを37GB使用し、15分かかっていたロード時間が約20秒に短縮されますが、推論は非常に遅くなります。
✨ 主な機能
- 多言語対応:ace、acm、acqなど多数の言語に対応しています。
- 最先端のアルゴリズム:Expert Output Maskingを用いたトレーニングアルゴリズムを採用。
- 高速ロード:VRAM使用量を抑え、高速にモデルをロードできます。
📦 インストール
このモデルを使用するには、bitsandbytesを最新バージョンにアップグレードし、以下のhf transformersのプルリクエストをインストールします。
https://github.com/huggingface/transformers/pull/26037
💻 使用例
基本的な使用法
>>> from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
>>> tokenizer = AutoTokenizer.from_pretrained("facebook/nllb-moe-54b")
>>> model = AutoModelForSeq2SeqLM.from_pretrained("facebook/nllb-moe-54b")
>>> batched_input = [
'We now have 4-month-old mice that are non-diabetic that used to be diabetic," he added.',
"Dr. Ehud Ur, professor of medicine at Dalhousie University in Halifax, Nova Scotia and chair of the clinical and scientific division of the Canadian Diabetes Association cautioned that the research is still in its early days.",
"Like some other experts, he is skeptical about whether diabetes can be cured, noting that these findings have no relevance to people who already have Type 1 diabetes.",
"On Monday, Sara Danius, permanent secretary of the Nobel Committee for Literature at the Swedish Academy, publicly announced during a radio program on Sveriges Radio in Sweden the committee, unable to reach Bob Dylan directly about winning the 2016 Nobel Prize in Literature, had abandoned its efforts to reach him.",
'Danius said, "Right now we are doing nothing. I have called and sent emails to his closest collaborator and received very friendly replies. For now, that is certainly enough."',
"Previously, Ring's CEO, Jamie Siminoff, remarked the company started when his doorbell wasn't audible from his shop in his garage.",
]
>>> inputs = tokenizer(batched_input, return_tensors="pt", padding = True)
>>> translated_tokens = model.generate(
... **inputs, forced_bos_token_id=tokenizer.lang_code_to_id["fra_Latn"]
... )
>>> tokenizer.batch_decode(translated_tokens, skip_special_tokens=True)
['"Nous avons maintenant des souris de 4 mois non diabétiques qui étaient diabétiques", a-t-il ajouté.',
"Le docteur Ehud Ur, professeur de médecine à l'université Dalhousie, à Halifax, en Nouvelle-Écosse, et président de la division clinique et scientifique de l'Association canadienne du diabète, prévient que la recherche n'en est qu'à ses débuts.",
"Comme d'autres spécialistes, il est sceptique quant à la guérison du diabète, notant que ces résultats ne sont pas pertinents pour les personnes atteintes de diabète de type 1.",
"Lundi, Sara Danius, secrétaire permanente du Comité Nobel de littérature à l'Académie suédoise, a annoncé publiquement lors d'une émission de radio sur Sveriges Radio en Suède que le comité, incapable de contacter Bob Dylan directement au sujet du prix Nobel de littérature 2016, avait abandonné ses efforts pour le joindre.",
"Danius a déclaré: \"Pour le moment, nous ne faisons rien. J'ai appelé et envoyé des courriels à son plus proche collaborateur et j'ai reçu des réponses très amicales. Pour l'instant, c'est certainement suffisant\".",
"Auparavant, le PDG de Ring, Jamie Siminoff, a fait remarquer que la société avait commencé lorsque sa sonnette n'était pas audible depuis son magasin dans son garage.",
"Il a construit une sonnette WiFi, il a dit.",
]
📚 ドキュメント
トレーニング
- トレーニングにはExpert Output Maskingが使用されており、一部のトークンの全貢献をドロップすることで行われます。これは以下のスキームに対応しています。
生成
利用可能なチェックポイントには約350GBのストレージが必要です。マシンに十分なRAMがない場合は、accelerate
を使用することを確認してください。
ターゲットテキストを生成する際には、forced_bos_token_id
をターゲット言語IDに設定してください。以下の例は、facebook/nllb - moe - 54bモデルを使用して英語からフランス語に翻訳する方法を示しています。
なお、フランス語のBCP - 47コードfra_Latn
を使用しています。Flores 200データセットのすべてのBCP - 47コードのリストはこちらを参照してください。
🔧 技術詳細
- トレーニングアルゴリズム:Expert Output Maskingを用いたトレーニングアルゴリズムが使用されています。
- 使用データセット:flores - 200データセットが使用されています。
- 評価指標:bleu、spbleu、chrf++が使用されています。
📄 ライセンス
このモデルはCC - BY - NC - 4.0ライセンスの下で提供されています。
言語情報
項目 | 詳細 |
---|---|
対応言語 | ace、acm、acq、aeb、af、ajp、ak、als、am、apc、ar、ars、ary、arz、as、ast、awa、ayr、azb、azj、ba、bm、ban、be、bem、bn、bho、bjn、bo、bs、bug、bg、ca、ceb、cs、cjk、ckb、crh、cy、da、de、dik、dyu、dz、el、en、eo、et、eu、ee、fo、fj、fi、fon、fr、fur、fuv、gaz、gd、ga、gl、gn、gu、ht、ha、he、hi、hne、hr、hu、hy、ig、ilo、id、is、it、jv、ja、kab、kac、kam、kn、ks、ka、kk、kbp、kea、khk、km、ki、rw、ky、kmb、kmr、knc、kg、ko、lo、lij、li、ln、lt、lmo、ltg、lb、lua、lg、luo、lus、lvs、mag、mai、ml、mar、min、mk、mt、mni、mos、mi、my、nl、nn、nb、npi、nso、nus、ny、oc、ory、pag、pa、pap、pbt、pes、plt、pl、pt、prs、quy、ro、rn、ru、sg、sa、sat、scn、shn、si、sk、sl、sm、sn、sd、so、st、es、sc、sr、ss、su、sv、swh、szl、ta、taq、tt、te、tg、tl、th、ti、tpi、tn、ts、tk、tum、tr、tw、tzm、ug、uk、umb、ur、uzn、vec、vi、war、wo、xh、ydd、yo、yue、zh、zsm、zu |
言語詳細 | ace_Arab, ace_Latn, acm_Arab, acq_Arab, aeb_Arab, afr_Latn, ajp_Arab, aka_Latn, amh_Ethi, apc_Arab, arb_Arab, ars_Arab, ary_Arab, arz_Arab, asm_Beng, ast_Latn, awa_Deva, ayr_Latn, azb_Arab, azj_Latn, bak_Cyrl, bam_Latn, ban_Latn,bel_Cyrl, bem_Latn, ben_Beng, bho_Deva, bjn_Arab, bjn_Latn, bod_Tibt, bos_Latn, bug_Latn, bul_Cyrl, cat_Latn, ceb_Latn, ces_Latn, cjk_Latn, ckb_Arab, crh_Latn, cym_Latn, dan_Latn, deu_Latn, dik_Latn, dyu_Latn, dzo_Tibt, ell_Grek, eng_Latn, epo_Latn, est_Latn, eus_Latn, ewe_Latn, fao_Latn, pes_Arab, fij_Latn, fin_Latn, fon_Latn, fra_Latn, fur_Latn, fuv_Latn, gla_Latn, gle_Latn, glg_Latn, grn_Latn, guj_Gujr, hat_Latn, hau_Latn, heb_Hebr, hin_Deva, hne_Deva, hrv_Latn, hun_Latn, hye_Armn, ibo_Latn, ilo_Latn, ind_Latn, isl_Latn, ita_Latn, jav_Latn, jpn_Jpan, kab_Latn, kac_Latn, kam_Latn, kan_Knda, kas_Arab, kas_Deva, kat_Geor, knc_Arab, knc_Latn, kaz_Cyrl, kbp_Latn, kea_Latn, khm_Khmr, kik_Latn, kin_Latn, kir_Cyrl, kmb_Latn, kon_Latn, kor_Hang, kmr_Latn, lao_Laoo, lvs_Latn, lij_Latn, lim_Latn, lin_Latn, lit_Latn, lmo_Latn, ltg_Latn, ltz_Latn, lua_Latn, lug_Latn, luo_Latn, lus_Latn, mag_Deva, mai_Deva, mal_Mlym, mar_Deva, min_Latn, mkd_Cyrl, plt_Latn, mlt_Latn, mni_Beng, khk_Cyrl, mos_Latn, mri_Latn, zsm_Latn, mya_Mymr, nld_Latn, nno_Latn, nob_Latn, npi_Deva, nso_Latn, nus_Latn, nya_Latn, oci_Latn, gaz_Latn, ory_Orya, pag_Latn, pan_Guru, pap_Latn, pol_Latn, por_Latn, prs_Arab, pbt_Arab, quy_Latn, ron_Latn, run_Latn, rus_Cyrl, sag_Latn, san_Deva, sat_Beng, scn_Latn, shn_Mymr, sin_Sinh, slk_Latn, slv_Latn, smo_Latn, sna_Latn, snd_Arab, som_Latn, sot_Latn, spa_Latn, als_Latn, srd_Latn, srp_Cyrl, ssw_Latn, sun_Latn, swe_Latn, swh_Latn, szl_Latn, tam_Taml, tat_Cyrl, tel_Telu, tgk_Cyrl, tgl_Latn, tha_Thai, tir_Ethi, taq_Latn, taq_Tfng, tpi_Latn, tsn_Latn, tso_Latn, tuk_Latn, tum_Latn, tur_Latn, twi_Latn, tzm_Tfng, uig_Arab, ukr_Cyrl, umb_Latn, urd_Arab, uzn_Latn, vec_Latn, vie_Latn, war_Latn, wol_Latn, xho_Latn, ydd_Hebr, yor_Latn, yue_Hant, zho_Hans, zho_Hant, zul_Latn |
タグ | translation |
データセット | flores - 200 |
評価指標 | bleu、spbleu、chrf++ |
推論可否 | false |
M2m100 418M
MIT
M2M100は100言語に対応した9900の翻訳方向をサポートする多言語エンコーダーデコーダーモデルです
機械翻訳 複数言語対応
M
facebook
1.6M
299
Opus Mt Fr En
Apache-2.0
Transformerベースのフランス語から英語への神経機械翻訳モデルで、Helsinki-NLPチームによって開発され、OPUS多言語データセットを用いて訓練されました。
機械翻訳 複数言語対応
O
Helsinki-NLP
1.2M
44
Opus Mt Ar En
Apache-2.0
OPUSデータを基に訓練された、transformer-alignアーキテクチャを採用したアラビア語から英語への機械翻訳モデル
機械翻訳 複数言語対応
O
Helsinki-NLP
579.41k
42
M2m100 1.2B
MIT
M2M100は100言語をサポートする多言語機械翻訳モデルで、9900の翻訳方向間で直接翻訳できます。
機械翻訳 複数言語対応
M
facebook
501.82k
167
Indictrans2 Indic En 1B
MIT
25のインド言語と英語の相互翻訳をサポートする1.1Bパラメータ規模の機械翻訳モデル、AI4Bharatプロジェクトによって開発
機械翻訳
Transformers 複数言語対応

I
ai4bharat
473.63k
14
Opus Mt En Zh
Apache-2.0
Transformerアーキテクチャに基づく英語 - 中国語多方言翻訳モデルで、英語から13種類の中国語バリエーションへの翻訳タスクをサポートします。
機械翻訳 複数言語対応
O
Helsinki-NLP
442.08k
367
Opus Mt Zh En
ヘルシンキ大学によって開発された、OPUSコーパスに基づく中国語から英語への機械翻訳モデル
機械翻訳 複数言語対応
O
Helsinki-NLP
441.24k
505
Mbart Large 50 Many To Many Mmt
mBART-large-50をファインチューニングした多言語機械翻訳モデルで、50言語間の相互翻訳をサポート
機械翻訳 複数言語対応
M
facebook
404.66k
357
Opus Mt De En
Apache-2.0
opus-mt-de-enは、transformer-alignアーキテクチャに基づくドイツ語から英語への機械翻訳モデルで、Helsinki-NLPチームによって開発されました。
機械翻訳 複数言語対応
O
Helsinki-NLP
404.33k
44
Opus Mt Es En
Apache-2.0
これはTransformerアーキテクチャに基づくスペイン語から英語への機械翻訳モデルで、Helsinki - NLPチームによって開発されました。
機械翻訳
Transformers 複数言語対応

O
Helsinki-NLP
385.40k
71
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98