comprehend_it - multilingual - t5 - baseオープンソースモデル - 約100言語をサポートする双方向テキスト分類

ホーム

Comprehend It Multilingual T5 Base

knowledgatorによって開発

mT5-baseベースの多言語ゼロショット分類モデルで、約100言語の双方向テキスト分類をサポート

テキスト分類

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #多言語ゼロショット分類 #双方向言語理解 #クロスランゲージラベルマッチング

ダウンロード数 420

リリース時間 : 1/26/2024

モデル概要

これはmT5-baseベースのエンコーダ-デコーダモデルで、多言語自然言語推論とテキスト分類タスクに特化しています。モデルはテキストとラベルの文脈的意味を理解し、テキストとラベルが異なる言語を使用するゼロショット分類をサポートします。

モデル特徴

多言語サポート

中国語、英語、スペイン語などの主要言語を含む約100言語のゼロショット分類をサポート

双方向言語処理

テキストとラベルは異なる言語を使用でき、モデルは依然として正確に分類可能

文脈理解

エンコーダ-デコーダアーキテクチャでテキストとラベルを個別に処理し、文脈的意味をより良く理解

高性能

複数のテキスト分類データセットで同類モデルよりも優れたパフォーマンス

モデル能力

多言語テキスト分類

ゼロショット学習

自然言語推論

クロスランゲージ分類

使用事例

コンテンツ分類

ニュース分類

ニュース記事を事前定義されたカテゴリに自動分類

BBCニュースデータセットで良好なパフォーマンス

感情分析

テキスト内の感情傾向を識別

感情分析データセットでF1スコア0.566を達成

多言語アプリケーション

クロスランゲージコンテンツ分類

英語ラベルを使用して他の言語のテキストコンテンツを分類

英語ラベルでウクライナ語テキストを分類する例

多言語コンテンツ管理

多言語ウェブサイトやアプリに統一された分類システムを提供

🚀 comprehend-it-multilang-base

このモデルは、mT5-base をベースにしたエンコーダー・デコーダーモデルで、多言語の自然言語推論データセットおよび複数のテキスト分類データセットを用いて学習されています。このモデルは、入力のテキストとラベルがそれぞれモデルの異なる部分（エンコーダーとデコーダー）でエンコードされるため、テキストと言語化されたラベルの文脈理解能力に優れています。ゼロショット分類器は約100言語をサポートし、ラベルとテキストが異なる言語であっても動作します。

🚀 クイックスタート

必要なライブラリのインストール

モデルのアーキテクチャが異なるため、transformersの "zero-shot-classification" パイプラインは使用できません。そのため、LiqFit という特別なライブラリを開発しました。また、T5トークナイザーを使用するために sentencepiece ライブラリがインストールされていない場合は、これもインストールする必要があります。

pip install liqfit sentencepiece

LiqFitパイプラインを使用したモデルの読み込み

モデルは zero-shot-classification パイプラインを使って以下のように読み込むことができます。

from liqfit.pipeline import ZeroShotClassificationPipeline
from liqfit.models import T5ForZeroShotClassification
from transformers import T5Tokenizer

model = T5ForZeroShotClassification.from_pretrained('knowledgator/comprehend_it-multilingual-t5-base')
tokenizer = T5Tokenizer.from_pretrained('knowledgator/comprehend_it-multilingual-t5-base')
classifier = ZeroShotClassificationPipeline(model=model, tokenizer=tokenizer,
                                                      hypothesis_template = '{}', encoder_decoder = True)

このパイプラインを使って、指定したクラス名のいずれかにシーケンスを分類することができます。

💻 使用例

基本的な使用法

# 英語のテキストを分類する例
sequence_to_classify = "one day I will see the world"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(sequence_to_classify, candidate_labels, multi_label=False)
{'sequence': 'one day I will see the world',
 'labels': ['travel', 'cooking', 'dancing'],
 'scores': [0.7350383996963501, 0.1484801471233368, 0.1164814680814743]}

高度な使用法

他言語（ウクライナ語）のテキストを分類する例

sequence_to_classify = "Одного дня я побачу цей світ."
candidate_labels = ['подорож', 'кулінарія', 'танці']
classifier(sequence_to_classify, candidate_labels, multi_label=False)
{'sequence': 'Одного дня я побачу цей світ.',
 'labels': ['подорож', 'кулінарія', 'танці'],
 'scores': [0.6393420696258545, 0.2657214105129242, 0.09493650496006012]}

テキストとラベルが異なる言語の場合の分類例

sequence_to_classify = "Одного дня я побачу цей світ"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(sequence_to_classify, candidate_labels, multi_label=False)
{'sequence': 'Одного дня я побачу цей світ',
 'labels': ['travel', 'cooking', 'dancing'],
 'scores': [0.7676175236701965, 0.15484870970249176, 0.07753374427556992]}

📚 ドキュメント

ベンチマーク

以下は、いくつかのテキスト分類データセットでのF1スコアです。すべてのテスト対象モデルは、これらのデータセットでファインチューニングされておらず、ゼロショット設定でテストされています。

モデル	IMDB	AG_NEWS	Emotions
Bart-large-mnli (407 M)	0.89	0.6887	0.3765
Deberta-base-v3 (184 M)	0.85	0.6455	0.5095
Comprehendo (184M)	0.90	0.7982	0.5660
Comprehendo-multi-lang (390M)	0.88	0.8372	-
SetFit BAAI/bge-small-en-v1.5 (33.4M)	0.86	0.5636	0.5754

将来的な参考資料

弊社のブログ記事 - "The new milestone in zero-shot capabilities (it’s not Generative AI)." をチェックしてください。この記事では、このモデルの可能な使用例と、次のトークン予測が素晴らしいゼロショット能力を達成する唯一の方法ではない理由について解説しています。AI業界の多くが生成AIとデコーダーベースのモデルに焦点を当てている中、弊社はエンコーダーベースのモデルの開発に取り組んでいます。このようなモデルに対して、デコーダーベースのモデルと同じレベルの汎化能力を達成することを目指しています。エンコーダーは双方向注意などの素晴らしい特性を持ち、多くの情報抽出タスクにおいて効率と制御性の面で最適な選択肢です。

フィードバック

皆様の意見を大切にしています！モデルの改善に役立つフィードバックや提案を共有してください。フォームに記入してください。

Discordへの参加

弊社のモデルに関するニュース、サポート、議論のために、Discordでコミュニティとつながりましょう。Discordに参加してください。

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

📋 モデル情報

属性	詳細
モデルタイプ	エンコーダー・デコーダーモデル
学習データ	multi_nli、xnli、dbpedia_14、SetFit/bbc-news、squad_v2、race、knowledgator/events_classification_biotech、facebook/anli、SetFit/qnli
評価指標	正解率、F1スコア
パイプラインタグ	ゼロショット分類
タグ	分類、情報抽出、ゼロショット