Xtremedistil L6 H256 Uncased
XtremeDistilTransformersは蒸留されたタスク非依存型Transformerモデルで、タスク転移学習技術を用いて訓練された小型汎用モデルであり、様々なタスクと言語に適用可能です。
ダウンロード数 3,816
リリース時間 : 3/2/2022
モデル概要
このモデルはマルチタスク蒸留技術を組み合わせ、6層ネットワーク構造と384次元の隠れ層を持ち、パラメータ数2200万で、BERT-baseと比較して5.3倍の高速化を実現しています。
モデル特徴
タスク非依存蒸留
タスク転移学習技術で訓練され、任意のタスクと言語に適用可能です。
効率的な圧縮
BERT-baseモデルと比較して5.3倍の高速化を実現し、パラメータ数は80%削減されています。
マルチタスク蒸留技術
XtremeDistilとMiniLMの2つの論文で提案された先進的な蒸留手法を組み合わせています。
高性能
GLUEやSQuAD-v2などのベンチマークテストで優れた性能を発揮し、元の大規模モデルに近い性能を示します。
モデル能力
テキスト分類
質問応答システム
自然言語理解
意味的類似度計算
使用事例
自然言語処理
テキスト分類
感情分析、トピック分類などのタスクに使用可能
SST-2感情分析タスクで92.3%の精度を達成
質問応答システム
オープンドメイン質問応答タスクに適しています
SQuAD-v2質問応答タスクで76.6 F1スコアを達成
意味的類似度
2つのテキストの意味的類似度を判断するのに使用可能
QQP意味的類似度タスクで91.0%の精度を達成
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98