zero-shot-implicit-bi-encoder开源文本分类模型 - 免费部署，无需标注数据分类文本

首页

Zero Shot Implicit Bi Encoder

由 claritylab 开发

基于sentence-transformers的零样本文本分类模型，通过隐式训练实现无需标注数据的文本分类

文本分类

Transformers

英语开源协议:MIT #零样本分类 #意图识别 #双编码架构

下载量 31

发布时间 : 5/15/2023

模型简介

该模型专为零样本文本分类设计，使用经过方面归一化的UTCD数据集进行隐式训练，在双编码分类框架下完成训练。

模型特点

零样本学习能力

无需特定任务的标注数据即可进行分类

隐式训练

使用方面归一化的UTCD数据集进行隐式训练

双编码框架

采用双编码器架构提高分类性能

模型能力

零样本文本分类

意图识别

语义相似度计算

使用案例

自然语言处理

意图识别

识别用户语句的潜在意图

示例中准确识别出'播放音乐'意图

文本分类

在无标注数据情况下对文本进行分类

🚀 零样本隐式双编码器

这是一个专为零样本文本分类设计的模型。它基于bert-base-uncased进行微调，通过与方面归一化的UTCD数据集进行隐式训练，在双编码分类框架下完成训练。该模型由Christopher Clarke、Yuzhao Heng、Yiping Kang、Krisztian Flautner、Lingjia Tang和Jason Mars在ACL'23会议论文《Label Agnostic Pre-training for Zero-shot Text Classification》中提出。训练和评估该模型的代码可在此处找到。

🚀 快速开始

本模型是一个句子转换器模型，由Christopher Clarke、Yuzhao Heng、Yiping Kang、Krisztian Flautner、Lingjia Tang和Jason Mars在ACL'23会议论文《Label Agnostic Pre-training for Zero-shot Text Classification》中提出。训练和评估该模型的代码可在此处找到。

✨ 主要特性

专为零样本文本分类设计。
基于bert-base-uncased模型进行微调。
通过与方面归一化的UTCD数据集进行隐式训练。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

>>> from sentence_transformers import SentenceTransformer, util as sbert_util
>>> model = SentenceTransformer(model_name_or_path='claritylab/zero-shot-implicit-bi-encoder')

>>> text = "I'd like to have this track onto my Classical Relaxations playlist."
>>> labels = [
>>>     'Add To Playlist', 'Book Restaurant', 'Get Weather', 'Play Music', 'Rate Book', 'Search Creative Work',
>>>     'Search Screening Event'
>>> ]
>>> aspect = 'intent'
>>> aspect_sep_token = model.tokenizer.additional_special_tokens[0]
>>> text = f'{aspect} {aspect_sep_token} {text}'

>>> text_embed = model.encode(text)
>>> label_embeds = model.encode(labels)
>>> scores = [sbert_util.cos_sim(text_embed, lb_embed).item() for lb_embed in label_embeds]
>>> print(scores)

[
  0.7989747524261475,
  0.003968147560954094,
  0.027803801000118256,
  0.9257574081420898,
  0.1492517590522766,
  0.010640474036335945,
  0.012045462615787983
]