flan - t5 - xxl - classif - 3wayオープンソースモデル - 自然言語推論をサポート、ゼロショット分類をより効率化

ホーム

Flan T5 Xxl Classif 3way

AntoineBlanotによって開発

Flan-T5-xxlを改造したシーケンス分類モデルで、自然言語推論タスク向けに設計されており、パラメータが半減しゼロショット分類をサポート

テキスト分類

Transformers

英語#ゼロショット分類 #効率的なT5アーキテクチャ #自然言語推論

ダウンロード数 26

リリース時間 : 5/11/2023

モデル概要

このモデルは元のT5アーキテクチャのデコーダを削除し分類ヘッドを最適化することで、効率的なシーケンス分類能力を実現し、特に自然言語推論タスクに適しています

モデル特徴

パラメータ半減

元のT5のデコーダ構造を削除し、エンコーダ+単層デコーダを保持することで、計算コストを50%削減

ゼロショット分類

微調整なしで様々なテキスト分類タスクに直接適用可能

効率的な推論

生成モデルのテキスト生成遅延を回避し、より高速な予測を実現

モデル能力

自然言語推論

テキスト分類

ゼロショット学習

使用事例

自然言語理解

トピック分類

テキストの自動分類

意図認識

ユーザークエリの意図を識別

感情分析

テキストの感情傾向を分析

学術研究

科学文献推論

科学仮説と証拠の論理的関係を分析

SciTailデータセットで精度96.6%

🚀 T5ForSequenceClassification

T5ForSequenceClassification は、元の T5 アーキテクチャをシーケンス分類タスクに適応させたものです。T5 はもともとテキスト対テキストのタスク用に構築され、それに優れています。テキスト対テキスト形式に変換された任意の自然言語処理タスクを扱うことができ、シーケンス分類タスクも含みます。元の T5 がシーケンス分類タスクにどのように使用されるかは、こちらで確認できます。

T5ForSequenceClassification を構築した動機は、ほとんどの自然言語理解タスクでは元の完全な T5 アーキテクチャは必要ないということです。実際、自然言語理解タスクでは一般的にテキスト生成を必要としないため、大規模なデコーダは不要です。デコーダを削除することで、元のパラメータ数を半分に減らす（つまり計算コストを半分にする）ことができ、与えられたタスクに対してネットワークを効率的に最適化することができます。

🚀 クイックスタート

T5ForSequenceClassification はゼロショット分類のタスクをサポートしています。以下のタスクに直接使用することができます。

トピック分類
意図認識
真偽質問応答
感情分析
テキストを分類することを目的としたその他のタスク...

現在、T5ForClassification クラスは transformers ライブラリでサポートされていないため、このモデルをハブ上で直接使用することはできません。T5ForSequenceClassification を使用するには、追加のパッケージとモデルの重みをインストールする必要があります。手順はこちらで確認できます。

✨ 主な機能

なぜ T5ForSequenceClassification を使うのか？

BERT アーキテクチャに基づく RoBERTa や DeBERTa などのモデルは、シーケンス分類タスクで非常に高い性能を示しており、現在も広く使用されています。しかし、これらのモデルは最大で約 15 億のパラメータ（DeBERTa xxlarge）までしか拡張できず、大規模なモデルと比較すると知識が限られています。一方、T5 アーキテクチャに基づくモデルは最大で約 110 億のパラメータ（t5 - xxl）まで拡張でき、このアーキテクチャに関する革新は最近行われており、改善が続けられています（mT5、Flan - T5、UL2、Flan - UL2 など）。

T5ForClassification と T5 の比較

T5ForClassification のアーキテクチャ：

エンコーダ：元の T5 と同じ
デコーダ：プーリング目的の最初のレイヤーのみ
分類ヘッド：デコーダの上にある単純な線形レイヤー

利点と欠点：

(+) T5 のエンコーディング能力を維持
(+) パラメータサイズが半分
(+) 解釈可能な出力（クラスのロジット）
(+) 生成ミスがなく、予測が高速（生成の遅延がない）
(-) テキスト対テキストの能力を失う

📚 ドキュメント

使用方法

T5ForSequenceClassification はゼロショット分類のタスクをサポートしています。以下のタスクに直接使用することができます。

トピック分類
意図認識
真偽質問応答
感情分析
テキストを分類することを目的としたその他のタスク...

なぜ T5ForSequenceClassification を使うのか？

T5ForClassification と T5 の比較

T5ForClassification のアーキテクチャ：

エンコーダ：元の T5 と同じ
デコーダ：プーリング目的の最初のレイヤーのみ
分類ヘッド：デコーダの上にある単純な線形レイヤー

利点と欠点：

(+) T5 のエンコーディング能力を維持
(+) パラメータサイズが半分
(+) 解釈可能な出力（クラスのロジット）
(+) 生成ミスがなく、予測が高速（生成の遅延がない）
(-) テキスト対テキストの能力を失う

結果

トレーニングタスク の検証データにおける結果：

データセット	正解率	F1値
MNLI (m)	0.923	0.923
MNLI (mm)	0.922	0.922
SNLI	0.942	0.942
SciTail	0.966	0.647

未知のタスク（ゼロショット）の検証データにおける結果：

データセット	正解率	F1値
?	?	?

最後に、philschmid が fp16 の Flan - T5 - xxl チェックポイントを作成してくれたことに特別な感謝を表します。

📄 ライセンス

原文書にライセンス情報は記載されていません。

付属情報

属性	詳情
データセット	multi_nli、snli、scitail
評価指標	正解率、F1値
パイプラインタグ	ゼロショット分類
言語	英語
モデル名	AntoineBlanot/flan - t5 - xxl - classif - 3way