deberta-v3-small-finetuned-colaオープンソースモデル - 無料デプロイで言語学的許容性判断をサポート

ホーム

Deberta V3 Small Finetuned Cola

mrm8488によって開発

このモデルは、GLUE COLAデータセットでDeBERTa-v3-smallを微調整したバージョンで、言語学的な受容性判断タスクに使用されます。

テキスト分類

Transformers

英語オープンソースライセンス:MIT #文法検査 #高精度NLP #言語学的分析

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

このモデルは、GLUE COLAデータセットでDeBERTa-v3-smallを微調整することで、文の言語学的な受容性（文法性）を判断するために特化しています。

モデル特徴

解耦注意機構

DeBERTa独自の解耦注意機構を採用し、従来のBERTモデルの注意計算方法を改善しました。

強化されたマスクデコーダー

強化されたマスクデコーダー技術を使用し、モデルのコンテキスト理解能力を向上させました。

効率的な微調整性能

CoLAデータセットで微調整した後、0.633のマシューズ相関係数を達成し、優れた性能を発揮しました。

モデル能力

文法の正しさ判断

言語学的受容性評価

テキスト分類

使用事例

教育技術

文法チェックツール

英語の文法チェックツールの開発に使用し、学生が文法エラーを識別するのを支援します。

文の文法的受容性を正確に判断できます。

自然言語処理研究

言語学的受容性ベンチマークテスト

他の文法判断モデルの性能を評価するためのベースラインモデルとして使用します。

マシューズ相関係数0.633で、強力なベースラインとして利用できます。

🚀 DeBERTa-v3-smallをCoLAでファインチューニング

このモデルは、GLUE COLAデータセットでmicrosoft/deberta-v3-smallをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.4051
マシューズ相関係数: 0.6333

🚀 クイックスタート

このモデルは、GLUE COLAデータセットでファインチューニングされたDeBERTa-v3-smallモデルです。評価セットでは、損失が0.4051、マシューズ相関係数が0.6333という結果を得ています。

✨ 主な機能

このモデルは、GLUE COLAデータセットでファインチューニングされており、文の受容性（文法性）を判断するタスクに適しています。
DeBERTaは、分離型アテンションと強化マスクデコーダを用いてBERTやRoBERTaモデルを改善しています。
DeBERTa V3では、事前学習にELECTRAによって導入されたRTD（置換トークン検出）目的関数を用いており、下流タスクのモデル性能が大幅に向上しています。

📚 ドキュメント

モデルの説明

DeBERTaは、分離型アテンションと強化マスクデコーダを用いてBERTやRoBERTaモデルを改善しています。これら2つの改善により、DeBERTaは80GBの学習データで大多数のNLUタスクでRoBERTaを上回っています。

詳細と更新情報については、公式リポジトリを確認してください。

DeBERTa V3では、事前学習にELECTRAによって導入されたRTD（置換トークン検出）目的関数をMLM目的関数の代わりに用いており、また、今後の論文で紹介するいくつかの革新的な手法も用いています。DeBERTa-V2と比較すると、V3バージョンは下流タスクのモデル性能を大幅に向上させています。モデルに関する簡単な説明は、元の論文の付録A11から見ることができますが、詳細については別の記事で提供する予定です。

DeBERTa V3 smallモデルは6層で、隠れ層のサイズは768です。語彙数が128Kのトークンを含む語彙を使用しているため、埋め込み層に98Mのパラメータが導入され、総パラメータ数は143Mになります。このモデルは、DeBERTa V2と同じく160GBのデータを使用して学習されています。

想定される用途と制限

詳細情報が必要です。

学習と評価データ

言語受容性コーパス（CoLA）は、23の言語学出版物からの10657文で構成されており、元の著者によって受容性（文法性）について専門的にアノテーションされています。ここで提供される公開バージョンには、学習セットと開発セットに属する9594文が含まれており、ホールドアウトテストセットに属する1063文は除外されています。