Electra Small Generator
ELECTRAは、生成型の事前学習ではなく判別型の事前学習を通じた効率的なテキストエンコーダで、低いコンピューティング能力で優れた性能を発揮できます。
Downloads 11.07k
Release Time : 3/2/2022
Model Overview
ELECTRAモデルは敵対的生成ネットワークの考え方を採用し、真の/生成されたトークンを判別することで事前学習を行います。この生成器モデルは、判別器の訓練に使用する偽のトークンを生成するために用いられますが、訓練の不安定性を避けるために、その規模は判別器と1:4の比率に保つ必要があります。
Model Features
効率的な事前学習
従来の生成型事前学習と比較して、判別型の訓練は計算効率を向上させることができます。
敵対的訓練メカニズム
GANに似たアーキテクチャを採用し、生成器 - 判別器の敵対的な最適化によってモデルを改善します。
パラメータ効率
小規模モデルでも、GLUE/SQuADなどのタスクでSOTAに近い結果を達成できます。
Model Capabilities
テキストエンコーディング
マスク言語モデリング
下流タスクの微調整
Use Cases
自然言語理解
テキスト分類
GLUEベンチマークテストで微調整して、感情分析などのタスクに使用します。
質問応答システム
SQuADデータセットで微調整して、機械読解を実現します。
論文によると、SQuAD 2.0で当時のSOTAを達成しました。
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム Chinese
R
uer
2,694
98