comprehend_it-multilingual-t5-base開源模型 - 支持近100種語言的雙向文本分類

首頁

Comprehend It Multilingual T5 Base

由knowledgator開發

基於mT5-base的多語言零樣本分類模型，支持近100種語言的雙向文本分類

文本分類

Transformers

支持多種語言開源協議:Apache-2.0 #多語言零樣本分類 #雙向語言理解 #跨語言標籤匹配

下載量 420

發布時間 : 1/26/2024

模型概述

這是一個基於mT5-base的編碼器-解碼器模型，專門用於多語言自然語言推理和文本分類任務。模型能夠理解文本和標籤的上下文含義，支持文本和標籤使用不同語言的零樣本分類。

模型特點

多語言支持

支持近100種語言的零樣本分類，包括中文、英語、西班牙語等主流語言

雙向語言處理

文本和標籤可以使用不同語言，模型仍能準確分類

上下文理解

通過編碼器-解碼器架構分別處理文本和標籤，更好地理解上下文含義

高性能

在多個文本分類數據集上表現優於同類模型

模型能力

多語言文本分類

零樣本學習

自然語言推理

跨語言分類

使用案例

內容分類

新聞分類

將新聞文章自動分類到預定義的類別中

在BBC新聞數據集上表現良好

情感分析

識別文本中的情感傾向

在情感分析數據集上F1分數達0.566

多語言應用

跨語言內容分類

使用英語標籤分類其他語言的文本內容

如使用英語標籤分類烏克蘭語文本

多語言內容管理

為多語言網站或應用提供統一的分類系統

🚀 多語言理解模型 comprehend-it-multilang-base

comprehend-it-multilang-base 是一個基於編碼器 - 解碼器架構的模型，它基於 mT5-base 構建，在多語言自然語言推理數據集以及多個文本分類數據集上進行了訓練。該模型能更好地理解文本和標籤的上下文信息，因為文本和標籤分別由模型的編碼器和解碼器部分進行編碼。零樣本分類器支持近 100 種語言，並且可以在不同語言的文本和標籤之間進行分類。

🚀 快速開始

安裝必要的庫

由於模型架構的不同，我們不能直接使用 transformers 庫中的 zero-shot-classification 管道。為此，我們開發了一個名為 LiqFit 的特殊庫。如果你還沒有安裝 sentencepiece 庫，為了使用 T5 分詞器，你也需要安裝它。

pip install liqfit sentencepiece

使用 LiqFit 管道加載模型

模型可以通過 zero-shot-classification 管道進行加載，示例代碼如下：

from liqfit.pipeline import ZeroShotClassificationPipeline
from liqfit.models import T5ForZeroShotClassification
from transformers import T5Tokenizer

model = T5ForZeroShotClassification.from_pretrained('knowledgator/comprehend_it-multilingual-t5-base')
tokenizer = T5Tokenizer.from_pretrained('knowledgator/comprehend_it-multilingual-t5-base')
classifier = ZeroShotClassificationPipeline(model=model, tokenizer=tokenizer,
                                                      hypothesis_template = '{}', encoder_decoder = True)

使用管道進行文本分類

你可以使用這個管道將序列分類到你指定的任何類別名稱中。

英文文本分類示例

sequence_to_classify = "one day I will see the world"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(sequence_to_classify, candidate_labels, multi_label=False)
{'sequence': 'one day I will see the world',
 'labels': ['travel', 'cooking', 'dancing'],
 'scores': [0.7350383996963501, 0.1484801471233368, 0.1164814680814743]}

烏克蘭語文本分類示例

sequence_to_classify = "Одного дня я побачу цей світ."
candidate_labels = ['подорож', 'кулінарія', 'танці']
classifier(sequence_to_classify, candidate_labels, multi_label=False)
{'sequence': 'Одного дня я побачу цей світ.',
 'labels': ['подорож', 'кулінарія', 'танці'],
 'scores': [0.6393420696258545, 0.2657214105129242, 0.09493650496006012]}

不同語言標籤和文本的分類示例

sequence_to_classify = "Одного дня я побачу цей світ"
candidate_labels = ['travel', 'cooking', 'dancing']
classifier(sequence_to_classify, candidate_labels, multi_label=False)
{'sequence': 'Одного дня я побачу цей світ',
 'labels': ['travel', 'cooking', 'dancing'],
 'scores': [0.7676175236701965, 0.15484870970249176, 0.07753374427556992]}

✨ 主要特性

多語言支持：支持近 100 種語言，包括但不限於英語、中文、法語、德語等。
零樣本分類：無需在特定數據集上進行微調，即可對新的文本進行分類。
跨語言分類：可以處理不同語言的文本和標籤之間的分類任務。

📦 安裝指南

pip install liqfit sentencepiece

💻 使用示例

基礎用法

from liqfit.pipeline import ZeroShotClassificationPipeline
from liqfit.models import T5ForZeroShotClassification
from transformers import T5Tokenizer

model = T5ForZeroShotClassification.from_pretrained('knowledgator/comprehend_it-multilingual-t5-base')
tokenizer = T5Tokenizer.from_pretrained('knowledgator/comprehend_it-multilingual-t5-base')
classifier = ZeroShotClassificationPipeline(model=model, tokenizer=tokenizer,
                                                      hypothesis_template = '{}', encoder_decoder = True)

sequence_to_classify = "one day I will see the world"
candidate_labels = ['travel', 'cooking', 'dancing']
result = classifier(sequence_to_classify, candidate_labels, multi_label=False)
print(result)

📚 詳細文檔

基準測試

以下是該模型在幾個文本分類數據集上的 F1 分數。所有測試的模型都沒有在這些數據集上進行微調，而是在零樣本設置下進行測試。

模型	IMDB	AG_NEWS	Emotions
Bart-large-mnli (407 M)	0.89	0.6887	0.3765
Deberta-base-v3 (184 M)	0.85	0.6455	0.5095
Comprehendo (184M)	0.90	0.7982	0.5660
Comprehendo-multi-lang (390M)	0.88	0.8372	-
SetFit BAAI/bge-small-en-v1.5 (33.4M)	0.86	0.5636	0.5754

未來閱讀

查看我們的博客文章 - "零樣本能力的新里程碑（不是生成式 AI）"，我們在其中強調了該模型的可能用例，以及為什麼下一個詞預測不是實現出色零樣本能力的唯一途徑。雖然大多數 AI 行業都專注於生成式 AI 和基於解碼器的模型，但我們致力於開發基於編碼器的模型。我們的目標是使這類模型達到與基於解碼器的模型相同的泛化水平。編碼器具有一些出色的特性，例如雙向注意力，並且在效率和可控性方面，它們是許多信息提取任務的最佳選擇。

📄 許可證

本項目採用 Apache-2.0 許可證。

📋 模型信息

屬性	詳情
模型類型	基於 mT5-base 的編碼器 - 解碼器模型
訓練數據集	multi_nli、xnli、dbpedia_14、SetFit/bbc-news、squad_v2、race、knowledgator/events_classification_biotech、facebook/anli、SetFit/qnli
評估指標	準確率、F1 分數
任務類型	零樣本分類
標籤	分類、信息提取、零樣本