Mt0 Xxl
mt0-xxlはBLOOMZシリーズの多言語大規模モデルで、46の言語の言語間タスク処理をサポートし、xP3データセットを基に微調整され、ゼロショット言語間命令実行に長けています。
ダウンロード数 1,914
リリース時間 : 10/19/2022
モデル概要
mT5アーキテクチャに基づく多言語大規模モデルで、xP3データセットを用いた微調整により言語間タスク汎化能力を実現し、テキスト生成、翻訳、質問応答などの様々なタスクをサポートします。
モデル特徴
多言語ゼロショット学習
特定の言語での訓練を必要とせずに、46の言語の命令タスクを処理できます。
タスク間汎化
xP3混合タスクデータセットで微調整され、未見のタスクタイプに汎化できます。
多タスク統一処理
翻訳、質問応答、テキスト生成などの多様なタスクを統一フレームワークで処理します。
モデル能力
多言語テキスト生成
言語間翻訳
照応解消
自然言語推論
感情分析
質問応答システム
キーワード抽出
使用事例
言語サービス
多言語翻訳
46の言語間の相互翻訳をサポート(例:モンゴル語 - 英語)
意味の正確性を保った言語間変換
言語間質問応答
サポートされる任意の言語で質問し、多言語での回答を得ることができます。
XWinogradテストセットでの正解率が76 - 81%
コンテンツ生成
多言語物語作成
指定された言語とテーマに基づいて一貫したテキストを生成(例:スペイン語の童話)
文化的適応性を保った創造的な出力
## 🚀 クイックスタート
このREADMEは、特定のモデルに関する情報を提供しています。データセット、ライセンス、言語サポート、タグ、ウィジェットの使用例、モデルの評価結果などが含まれています。
### 📦 データセット
- [bigscience/xP3](https://huggingface.co/datasets/bigscience/xP3)
- [mc4](https://huggingface.co/datasets/mc4)
### 📄 ライセンス
このプロジェクトは [Apache-2.0](https://www.apache.org/licenses/LICENSE-2.0) ライセンスの下で提供されています。
### 🌐 サポート言語
- af、am、ar、az、be、bg、bn、ca、ceb、co、cs、cy、da、de、el、en、eo、es、et、eu、fa、fi、fil、fr、fy、ga、gd、gl、gu、ha、haw、hi、hmn、ht、hu、hy、ig、is、it、iw、ja、jv、ka、kk、km、kn、ko、ku、ky、la、lb、lo、lt、lv、mg、mi、mk、ml、mn、mr、ms、mt、my、ne、nl、'no'、ny、pa、pl、ps、pt、ro、ru、sd、si、sk、sl、sm、sn、so、sq、sr、st、su、sv、sw、ta、te、tg、th、tr、uk、und、ur、uz、vi、xh、yi、yo、zh、zu
### 🏷️ タグ
- text2text-generation
### 💻 ウィジェット使用例
以下は、ウィジェットで使用されるいくつかのテキスト例です。
| 例のタイトル | テキスト内容 |
| ---- | ---- |
| en-en struct-to-text | <table> <tr> <th>Name</th> <th>Explanation</th> <th>Example models</th></tr> <tr> <td><a href=https://huggingface.co/datasets/bigscience/xP3>xP3</a></t> <td>Mixture of 13 training tasks in 46 languages with English prompts</td> <td><a href=https://huggingface.co/bigscience/bloomz>bloomz</a> & <a href=https://huggingface.co/bigscience/mt0-xxl>mt0-xxl</a></td> </tr> <tr> <td><a href=https://huggingface.co/datasets/bigscience/xP3mt>xP3mt</a></t> <td>Mixture of 13 training tasks in 46 languages with prompts in 20 languages (machine-translated from English)</td> <td><a href=https://huggingface.co/bigscience/bloomz-mt>bloomz-mt</a> & <a href=https://huggingface.co/bigscience/mt0-xxl-mt>mt0-xxl-mt</a></td> </tr> <tr> <td><a href=https://huggingface.co/datasets/bigscience/xP3all>xP3all</a></t> <td>xP3 + our evaluation datasets adding an additional 3 tasks for a total of 16 tasks in 46 languages with English prompts</td> <td></td> </tr> <tr> <td><a href=https://huggingface.co/datasets/bigscience/xP3megds>xP3megds</a></t> <td><a href=https://github.com/bigscience-workshop/Megatron-DeepSpeed>Megatron-DeepSpeed</a> processed version of xP3</td> <td><a href=https://huggingface.co/bigscience/bloomz>bloomz</a></td> </tr> <tr> <td><a href=https://huggingface.co/datasets/Muennighoff/P3>P3</a></t> <td>Repreprocessed version of the English-only <a href=https://huggingface.co/datasets/bigscience/P3>P3</a> with 8 training tasks</td> <td><a href=https://huggingface.co/bigscience/bloomz-p3>bloomz-p3</a> & <a href=https://huggingface.co/bigscience/mt0-xxl-p3>mt0-xxl-p3</a></td> </tr></table> Which dataset has the most tasks? |
| mn-en translation | Life is beautiful! Translate to Mongolian. |
| jp-or-fr translation | Le mot japonais «憂鬱» veut dire quoi en Odia? |
| de-nb quiz | Stell mir eine schwierige Quiz Frage bei der es um Astronomie geht. Bitte stell die Frage auf Norwegisch. |
| zh-en keywords | We present BLOOMZ & mT0, a family of models capable of following human instructions in dozens of languages zero-shot. We finetune BLOOM & mT5 pretrained multilingual language models on our crosslingual task mixture (xP3) and find our resulting models capable of crosslingual generalization to unseen tasks & languages. What are the keywords in Chinese? |
| zh-en sentiment | 一个传奇的开端,一个不灭的神话,这不仅仅是一部电影,而是作为一个走进新时代的标签,永远彪炳史册。Would you rate the previous review as positive, neutral or negative? |
| zh-zh sentiment | 一个传奇的开端,一个不灭的神话,这不仅仅是一部电影,而是作为一个走进新时代的标签,永远彪炳史册。你认为这句话的立场是赞扬、中立还是批评? |
| vi-en query | Suggest at least five related search terms to "Mạng neural nhân tạo". |
| fr-fr query | Proposez au moins cinq mots clés concernant «Réseau de neurones artificiels». |
| te-en qa | Explain in a sentence in Telugu what is backpropagation in neural networks. |
| en-en qa | Why is the sky blue? |
| es-en fable | Write a fairy tale about a troll saving a princess from a dangerous dragon. The fairy tale is a masterpiece that has achieved praise worldwide and its moral is "Heroes Come in All Shapes and Sizes". Story (in Spanish): |
| hi-en fable | Write a fable about wood elves living in a forest that is suddenly invaded by ogres. The fable is a masterpiece that has achieved praise worldwide and its moral is "Violence is the last refuge of the incompetent". Fable (in Hindi): |
### 📊 モデル評価結果
#### mt0-xxl
| タスクタイプ | データセット | メトリクス | 値 |
| ---- | ---- | ---- | ---- |
| Coreference resolution | Winogrande XL (xl) | Accuracy | 63.38 |
| Coreference resolution | XWinograd (en) | Accuracy | 81.29 |
| Coreference resolution | XWinograd (fr) | Accuracy | 78.31 |
| Coreference resolution | XWinograd (jp) | Accuracy | 78.62 |
| Coreference resolution | XWinograd (pt) | Accuracy | 77.95 |
| Coreference resolution | XWinograd (ru) | Accuracy | 76.51 |
| Coreference resolution | XWinograd (zh) | Accuracy | 77.38 |
| Natural language inference | ANLI (r1) | Accuracy | 49.5 |
| Natural language inference | ANLI (r2) | Accuracy | 43 |
| Natural language inference | ANLI (r3) | Accuracy | 46.08 |
| Natural language inference | SuperGLUE (cb) | Accuracy | 85.71 |
| Natural language inference | SuperGLUE (rte) | Accuracy | 85.56 |
| Natural language inference | XNLI (ar) | Accuracy | 57.91 |
| Natural language inference | XNLI (bg) | Accuracy | 59.88 |
| Natural language inference | XNLI (de) | Accuracy | 60.64 |
| Natural language inference | XNLI (el) | Accuracy | 59 |
| Natural language inference | XNLI (en) | Accuracy | 62.01 |
| Natural language inference | XNLI (es) | Accuracy | 60.8 |
| Natural language inference | XNLI (fr) | Accuracy | 59.88 |
| Natural language inference | XNLI (hi) | Accuracy | 57.23 |
| Natural language inference | XNLI (ru) | Accuracy | 58.88 |
| Natural language inference | XNLI (sw) | Accuracy | 55.66 |
| Natural language inference | XNLI (th) | Accuracy | 57.43 |
| Natural language inference | XNLI (tr) | Accuracy | 57.59 |
| Natural language inference | XNLI (ur) | Accuracy | 55.42 |
| Natural language inference | XNLI (vi) | Accuracy | 58.51 |
| Natural language inference | XNLI (zh) | Accuracy | 59.12 |
| Sentence completion | StoryCloze (2016) | Accuracy | 96.04 |
| Sentence completion | SuperGLUE (copa) | Accuracy | 93 |
| Sentence completion | XCOPA (et) | Accuracy | 79 |
| Sentence completion | XCOPA (ht) | Accuracy | 81 |
| Sentence completion | XCOPA (id) | Accuracy | 92 |
| Sentence completion | XCOPA (it) | Accuracy | 90 |
| Sentence completion | XCOPA (qu) | Accuracy | 59 |
| Sentence completion | XCOPA (sw) | Accuracy | 79 |
| Sentence completion | XCOPA (ta) | Accuracy | 84 |
| Sentence completion | XCOPA (th) | Accuracy | 77 |
| Sentence completion | XCOPA (tr) | Accuracy | 79 |
| Sentence completion | XCOPA (vi) | Accuracy | 88 |
| Sentence completion | XCOPA (zh) | Accuracy | 89 |
| Sentence completion | XStoryCloze (ar) | Accuracy | 91.07 |
| Sentence completion | XStoryCloze (es) | Accuracy | ...(省略された部分は元の文書に存在するが、全て記載すると長くなるため省略) |
以上の内容は、元のREADMEを日本語に翻訳し、情報を整理して視覚的に分かりやすくしたものです。必要に応じて、さらに詳細な説明やコメントを追加することができます。
Phi 2 GGUF
その他
Phi-2はマイクロソフトが開発した小型ながら強力な言語モデルで、27億のパラメータを持ち、効率的な推論と高品質なテキスト生成に特化しています。
大規模言語モデル 複数言語対応
P
TheBloke
41.5M
205
Roberta Large
MIT
マスク言語モデリングの目標で事前学習された大型英語言語モデルで、改良されたBERTの学習方法を採用しています。
大規模言語モデル 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERTはBERT基礎モデルの蒸留バージョンで、同等の性能を維持しながら、より軽量で高効率です。シーケンス分類、タグ分類などの自然言語処理タスクに適しています。
大規模言語モデル 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instructは多言語大規模言語モデルで、多言語対話ユースケースに最適化されており、一般的な業界ベンチマークで優れた性能を発揮します。
大規模言語モデル 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM - RoBERTaは、100言語の2.5TBのフィルタリングされたCommonCrawlデータを使って事前学習された多言語モデルで、マスク言語モデリングの目標で学習されています。
大規模言語モデル 複数言語対応
X
FacebookAI
9.6M
664
Roberta Base
MIT
Transformerアーキテクチャに基づく英語の事前学習モデルで、マスク言語モデリングの目標を通じて大量のテキストでトレーニングされ、テキスト特徴抽出と下流タスクの微調整をサポートします。
大規模言語モデル 英語
R
FacebookAI
9.3M
488
Opt 125m
その他
OPTはMeta AIが公開したオープンプリトレーニングトランスフォーマー言語モデルスイートで、パラメータ数は1.25億から1750億まであり、GPT-3シリーズの性能に対抗することを目指しつつ、大規模言語モデルのオープンな研究を促進するものです。
大規模言語モデル 英語
O
facebook
6.3M
198
1
transformersライブラリに基づく事前学習モデルで、様々なNLPタスクに適用可能
大規模言語モデル
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1はMetaが発表した多言語大規模言語モデルシリーズで、8B、70B、405Bのパラメータ規模を持ち、8種類の言語とコード生成をサポートし、多言語対話シーンを最適化しています。
大規模言語モデル
Transformers 複数言語対応

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5ベーシック版はGoogleによって開発されたテキスト-to-テキスト変換Transformerモデルで、パラメータ規模は2.2億で、多言語NLPタスクをサポートしています。
大規模言語モデル 複数言語対応
T
google-t5
5.4M
702
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98