🚀 零樣本隱式雙編碼器
這是一個專為零樣本文本分類設計的模型。它基於bert-base-uncased
進行微調,通過與方面歸一化的UTCD數據集進行隱式訓練,在雙編碼分類框架下完成訓練。該模型由Christopher Clarke、Yuzhao Heng、Yiping Kang、Krisztian Flautner、Lingjia Tang和Jason Mars在ACL'23會議論文《Label Agnostic Pre-training for Zero-shot Text Classification》中提出。訓練和評估該模型的代碼可在此處找到。
🚀 快速開始
本模型是一個句子轉換器模型,由Christopher Clarke、Yuzhao Heng、Yiping Kang、Krisztian Flautner、Lingjia Tang和Jason Mars在ACL'23會議論文《Label Agnostic Pre-training for Zero-shot Text Classification》中提出。訓練和評估該模型的代碼可在此處找到。
✨ 主要特性
- 專為零樣本文本分類設計。
- 基於
bert-base-uncased
模型進行微調。
- 通過與方面歸一化的UTCD數據集進行隱式訓練。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
>>> from sentence_transformers import SentenceTransformer, util as sbert_util
>>> model = SentenceTransformer(model_name_or_path='claritylab/zero-shot-implicit-bi-encoder')
>>> text = "I'd like to have this track onto my Classical Relaxations playlist."
>>> labels = [
>>> 'Add To Playlist', 'Book Restaurant', 'Get Weather', 'Play Music', 'Rate Book', 'Search Creative Work',
>>> 'Search Screening Event'
>>> ]
>>> aspect = 'intent'
>>> aspect_sep_token = model.tokenizer.additional_special_tokens[0]
>>> text = f'{aspect} {aspect_sep_token} {text}'
>>> text_embed = model.encode(text)
>>> label_embeds = model.encode(labels)
>>> scores = [sbert_util.cos_sim(text_embed, lb_embed).item() for lb_embed in label_embeds]
>>> print(scores)
[
0.7989747524261475,
0.003968147560954094,
0.027803801000118256,
0.9257574081420898,
0.1492517590522766,
0.010640474036335945,
0.012045462615787983
]
📚 詳細文檔
模型描述
本模型用於零樣本文本分類。它在雙編碼分類框架下,通過與方面歸一化的UTCD數據集進行隱式訓練。
🔧 技術細節
文檔未提供足夠的技術實現細節,故跳過此章節。
📄 許可證
本項目採用MIT許可證。