🚀 零样本隐式双编码器
这是一个专为零样本文本分类设计的模型。它基于bert-base-uncased
进行微调,通过与方面归一化的UTCD数据集进行隐式训练,在双编码分类框架下完成训练。该模型由Christopher Clarke、Yuzhao Heng、Yiping Kang、Krisztian Flautner、Lingjia Tang和Jason Mars在ACL'23会议论文《Label Agnostic Pre-training for Zero-shot Text Classification》中提出。训练和评估该模型的代码可在此处找到。
🚀 快速开始
本模型是一个句子转换器模型,由Christopher Clarke、Yuzhao Heng、Yiping Kang、Krisztian Flautner、Lingjia Tang和Jason Mars在ACL'23会议论文《Label Agnostic Pre-training for Zero-shot Text Classification》中提出。训练和评估该模型的代码可在此处找到。
✨ 主要特性
- 专为零样本文本分类设计。
- 基于
bert-base-uncased
模型进行微调。
- 通过与方面归一化的UTCD数据集进行隐式训练。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
>>> from sentence_transformers import SentenceTransformer, util as sbert_util
>>> model = SentenceTransformer(model_name_or_path='claritylab/zero-shot-implicit-bi-encoder')
>>> text = "I'd like to have this track onto my Classical Relaxations playlist."
>>> labels = [
>>> 'Add To Playlist', 'Book Restaurant', 'Get Weather', 'Play Music', 'Rate Book', 'Search Creative Work',
>>> 'Search Screening Event'
>>> ]
>>> aspect = 'intent'
>>> aspect_sep_token = model.tokenizer.additional_special_tokens[0]
>>> text = f'{aspect} {aspect_sep_token} {text}'
>>> text_embed = model.encode(text)
>>> label_embeds = model.encode(labels)
>>> scores = [sbert_util.cos_sim(text_embed, lb_embed).item() for lb_embed in label_embeds]
>>> print(scores)
[
0.7989747524261475,
0.003968147560954094,
0.027803801000118256,
0.9257574081420898,
0.1492517590522766,
0.010640474036335945,
0.012045462615787983
]
📚 详细文档
模型描述
本模型用于零样本文本分类。它在双编码分类框架下,通过与方面归一化的UTCD数据集进行隐式训练。
🔧 技术细节
文档未提供足够的技术实现细节,故跳过此章节。
📄 许可证
本项目采用MIT许可证。