🚀 T5ForSequenceClassification
T5ForSequenceClassification は、元の T5 アーキテクチャをシーケンス分類タスクに適応させたものです。T5 はもともとテキスト対テキストのタスク用に構築され、それに優れています。テキスト対テキスト形式に変換された任意の自然言語処理タスクを扱うことができ、シーケンス分類タスクも含みます。元の T5 がシーケンス分類タスクにどのように使用されるかは、こちら で確認できます。
T5ForSequenceClassification を構築した動機は、ほとんどの自然言語理解タスクでは元の完全な T5 アーキテクチャは必要ないということです。実際、自然言語理解タスクでは一般的にテキスト生成を必要としないため、大規模なデコーダは不要です。デコーダを削除することで、元のパラメータ数を半分に減らす(つまり計算コストを半分にする)ことができ、与えられたタスクに対してネットワークを効率的に最適化することができます。
🚀 クイックスタート
T5ForSequenceClassification はゼロショット分類のタスクをサポートしています。以下のタスクに直接使用することができます。
- トピック分類
- 意図認識
- 真偽質問応答
- 感情分析
- テキストを分類することを目的としたその他のタスク...
現在、T5ForClassification クラスは transformers ライブラリでサポートされていないため、このモデルをハブ上で直接使用することはできません。T5ForSequenceClassification を使用するには、追加のパッケージとモデルの重みをインストールする必要があります。手順は こちら で確認できます。
✨ 主な機能
なぜ T5ForSequenceClassification を使うのか?
BERT アーキテクチャに基づく RoBERTa や DeBERTa などのモデルは、シーケンス分類タスクで非常に高い性能を示しており、現在も広く使用されています。しかし、これらのモデルは最大で約 15 億のパラメータ(DeBERTa xxlarge)までしか拡張できず、大規模なモデルと比較すると知識が限られています。一方、T5 アーキテクチャに基づくモデルは最大で約 110 億のパラメータ(t5 - xxl)まで拡張でき、このアーキテクチャに関する革新は最近行われており、改善が続けられています(mT5、Flan - T5、UL2、Flan - UL2 など)。
T5ForClassification と T5 の比較
T5ForClassification のアーキテクチャ:
- エンコーダ:元の T5 と同じ
- デコーダ:プーリング目的の最初のレイヤーのみ
- 分類ヘッド:デコーダの上にある単純な線形レイヤー
利点と欠点:
- (+) T5 のエンコーディング能力を維持
- (+) パラメータサイズが半分
- (+) 解釈可能な出力(クラスのロジット)
- (+) 生成ミスがなく、予測が高速(生成の遅延がない)
- (-) テキスト対テキストの能力を失う
📚 ドキュメント
目次
- 使用方法
- なぜ T5ForSequenceClassification を使うのか?
- T5ForClassification と T5 の比較
- 結果
使用方法
T5ForSequenceClassification はゼロショット分類のタスクをサポートしています。以下のタスクに直接使用することができます。
- トピック分類
- 意図認識
- 真偽質問応答
- 感情分析
- テキストを分類することを目的としたその他のタスク...
現在、T5ForClassification クラスは transformers ライブラリでサポートされていないため、このモデルをハブ上で直接使用することはできません。T5ForSequenceClassification を使用するには、追加のパッケージとモデルの重みをインストールする必要があります。手順は こちら で確認できます。
なぜ T5ForSequenceClassification を使うのか?
BERT アーキテクチャに基づく RoBERTa や DeBERTa などのモデルは、シーケンス分類タスクで非常に高い性能を示しており、現在も広く使用されています。しかし、これらのモデルは最大で約 15 億のパラメータ(DeBERTa xxlarge)までしか拡張できず、大規模なモデルと比較すると知識が限られています。一方、T5 アーキテクチャに基づくモデルは最大で約 110 億のパラメータ(t5 - xxl)まで拡張でき、このアーキテクチャに関する革新は最近行われており、改善が続けられています(mT5、Flan - T5、UL2、Flan - UL2 など)。
T5ForClassification と T5 の比較
T5ForClassification のアーキテクチャ:
- エンコーダ:元の T5 と同じ
- デコーダ:プーリング目的の最初のレイヤーのみ
- 分類ヘッド:デコーダの上にある単純な線形レイヤー
利点と欠点:
- (+) T5 のエンコーディング能力を維持
- (+) パラメータサイズが半分
- (+) 解釈可能な出力(クラスのロジット)
- (+) 生成ミスがなく、予測が高速(生成の遅延がない)
- (-) テキスト対テキストの能力を失う
結果
トレーニングタスク の検証データにおける結果:
データセット |
正解率 |
F1値 |
MNLI (m) |
0.923 |
0.923 |
MNLI (mm) |
0.922 |
0.922 |
SNLI |
0.942 |
0.942 |
SciTail |
0.966 |
0.647 |
未知のタスク(ゼロショット)の検証データにおける結果:
最後に、philschmid が fp16 の Flan - T5 - xxl チェックポイント を作成してくれたことに特別な感謝を表します。
📄 ライセンス
原文書にライセンス情報は記載されていません。
付属情報
属性 |
詳情 |
データセット |
multi_nli、snli、scitail |
評価指標 |
正解率、F1値 |
パイプラインタグ |
ゼロショット分類 |
言語 |
英語 |
モデル名 |
AntoineBlanot/flan - t5 - xxl - classif - 3way |