zero-shot-explicit-bi-encoder开源文本分类模型 - 无需样本快速完成文本分类

首页

Zero Shot Explicit Bi Encoder

由 claritylab 开发

基于BERT架构的零样本文本分类模型，采用显式训练方法在UTCD数据集上训练

文本分类

Transformers

英语开源协议:MIT #零样本分类 #双编码器架构 #文本意图识别

下载量 31

发布时间 : 5/15/2023

模型简介

专为零样本文本分类任务设计的双编码器模型，通过aspect-normalized处理优化标签无关的预训练

模型特点

零样本学习能力

无需特定领域训练数据即可对新类别进行分类

显式训练框架

采用标签无关的预训练方法优化分类性能

双编码器架构

独立编码文本和标签实现高效相似度计算

模型能力

零样本文本分类

语义相似度计算

多标签分类

使用案例

智能助手

用户意图识别

识别用户查询的潜在意图类别

准确区分播放音乐/添加播放列表等相似意图

内容分类

动态标签系统

为未见过的新内容自动分配标签

🚀 零样本显式双编码器

本项目是一个用于零样本文本分类的模型，借助显式训练与方面归一化的UTCD数据集，在双编码分类框架下进行训练。它基于Sentence - Transformers构建，代码可在指定仓库获取。

🚀 快速开始

本模型是一个 sentence - transformers 模型。它在ACL'23会议的研究成果论文 Label Agnostic Pre - training for Zero - shot Text Classification 中被提出，作者为 Christopher Clarke、Yuzhao Heng、Yiping Kang、Krisztian Flautner、Lingjia Tang 和 Jason Mars。训练和评估该模型的代码可在 [此处](https://github.com/ChrisIsKing/zero - shot - text - classification/tree/master) 找到。

✨ 主要特性

专为零样本文本分类设计。
在双编码分类框架下，通过使用方面归一化的 UTCD 数据集进行显式训练。
微调基础模型：[bert - base - uncased](https://huggingface.co/bert - base - uncased)

📦 安装指南

文档未提供安装步骤，暂不展示相关内容。

💻 使用示例

基础用法

>>> from sentence_transformers import SentenceTransformer, util as sbert_util
>>> model = SentenceTransformer(model_name_or_path='claritylab/zero-shot-explicit-bi-encoder')

>>> text = "I'd like to have this track onto my Classical Relaxations playlist."
>>> labels = [
>>>     'Add To Playlist', 'Book Restaurant', 'Get Weather', 'Play Music', 'Rate Book', 'Search Creative Work',
>>>     'Search Screening Event'
>>> ]

>>> text_embed = model.encode(text)
>>> label_embeds = model.encode(labels)
>>> scores = [sbert_util.cos_sim(text_embed, lb_embed).item() for lb_embed in label_embeds]
>>> print(scores)

[
  0.53502357006073,
  0.051911696791648865,
  0.0546676367521286,
  0.5633962750434875,
  0.28765711188316345,
  0.17751818895339966,
  0.18489906191825867
]