gliclass-large-v1.0-init開源零樣本分類器 - 適用主題分類等多場景分析

首頁

Gliclass Large V1.0 Init

由knowledgator開發

GLiClass是一款高效零樣本分類器，基於合成數據訓練，適用於主題分類、情感分析及RAG流程中的重排序任務。

文本分類

Transformers

英語開源協議:Apache-2.0 #零樣本分類 #高效單次推理 #多標籤分類

下載量 85

發布時間 : 6/3/2024

模型概述

受GLiNER啟發的輕量級序列分類模型，支持零樣本學習，在保持與交叉編碼器相同性能的同時計算效率更高。

模型特點

高效零樣本分類

單次前向傳播即可完成分類，計算效率優於傳統交叉編碼器

多任務適用性

支持主題分類、情感分析及RAG重排序等多種文本處理任務

商業友好

基於合成數據訓練，可安全應用於商業場景

模型能力

零樣本文本分類

多標籤分類

情感分析

檢索增強生成（RAG）重排序

使用案例

內容分類

新聞主題分類

對新聞文本進行多主題自動標註

在AG_NEWS數據集上F1達0.7516

情感分析

評論情感識別

識別用戶評論中的情感傾向

在IMDB數據集上F1達0.9404

信息檢索

RAG結果重排序

優化檢索增強生成流程中的文檔排序

🚀 ⭐ GLiClass：用於序列分類的通用輕量級模型

GLiClass 是一個高效的零樣本分類器，其靈感源自 GLiNER 的研究工作。它在性能上與交叉編碼器相當，但計算效率更高，因為分類僅需一次前向傳播即可完成。該模型可用於 主題分類、情感分析，還能在 RAG 管道中作為重排器使用。模型基於合成數據進行訓練，可用於商業應用，且除了初始數據集（MoritzLaurer/synthetic_zeroshot_mixtral_v0.1）外，未在其他任何數據集上進行額外的微調。

🚀 快速開始

安裝

首先，你需要安裝 GLiClass 庫：

pip install gliclass

初始化模型和管道

from gliclass import GLiClassModel, ZeroShotClassificationPipeline
from transformers import AutoTokenizer

model = GLiClassModel.from_pretrained("knowledgator/gliclass-large-v1.0-init")
tokenizer = AutoTokenizer.from_pretrained("knowledgator/gliclass-large-v1.0-init")

pipeline = ZeroShotClassificationPipeline(model, tokenizer, classification_type='multi-label', device='cuda:0')

text = "One day I will see the world!"
labels = ["travel", "dreams", "sport", "science", "politics"]
results = pipeline(text, labels, threshold=0.5)[0] #because we have one text

for result in results:
 print(result["label"], "=>", result["score"])

✨ 主要特性

高效零樣本分類：受 GLiNER 啟發，在性能與交叉編碼器相當的情況下，計算效率更高。
多任務應用：可用於主題分類、情感分析以及 RAG 管道中的重排。
合成數據訓練：基於合成數據訓練，可用於商業應用。

📦 安裝指南

若要使用 GLiClass，可通過以下命令安裝：

pip install gliclass

💻 使用示例

基礎用法

from gliclass import GLiClassModel, ZeroShotClassificationPipeline
from transformers import AutoTokenizer

model = GLiClassModel.from_pretrained("knowledgator/gliclass-large-v1.0-init")
tokenizer = AutoTokenizer.from_pretrained("knowledgator/gliclass-large-v1.0-init")

pipeline = ZeroShotClassificationPipeline(model, tokenizer, classification_type='multi-label', device='cuda:0')

text = "One day I will see the world!"
labels = ["travel", "dreams", "sport", "science", "politics"]
results = pipeline(text, labels, threshold=0.5)[0] #because we have one text

for result in results:
 print(result["label"], "=>", result["score"])

📚 詳細文檔

基準測試

以下是該模型在幾個文本分類數據集上的 F1 分數。所有測試模型均未在這些數據集上進行微調，且在零樣本設置下進行測試。

模型	IMDB	AG_NEWS	Emotions
gliclass-large-v1.0 (438 M)	0.9404	0.7516	0.4874
gliclass-base-v1.0 (186 M)	0.8650	0.6837	0.4749
gliclass-small-v1.0 (144 M)	0.8650	0.6805	0.4664
Bart-large-mnli (407 M)	0.89	0.6887	0.3765
Deberta-base-v3 (184 M)	0.85	0.6455	0.5095
Comprehendo (184M)	0.90	0.7982	0.5660
SetFit BAAI/bge-small-en-v1.5 (33.4M)	0.86	0.5636	0.5754