zero-shot-implicit-bi-encoder開源文本分類模型 - 免費部署，無需標註數據分類文本

首頁

Zero Shot Implicit Bi Encoder

由claritylab開發

基於sentence-transformers的零樣本文本分類模型，通過隱式訓練實現無需標註數據的文本分類

文本分類

Transformers

英語開源協議:MIT #零樣本分類 #意圖識別 #雙編碼架構

下載量 31

發布時間 : 5/15/2023

模型概述

該模型專為零樣本文本分類設計，使用經過方面歸一化的UTCD數據集進行隱式訓練，在雙編碼分類框架下完成訓練。

模型特點

零樣本學習能力

無需特定任務的標註數據即可進行分類

隱式訓練

使用方面歸一化的UTCD數據集進行隱式訓練

雙編碼框架

採用雙編碼器架構提高分類性能

模型能力

零樣本文本分類

意圖識別

語義相似度計算

使用案例

自然語言處理

意圖識別

識別用戶語句的潛在意圖

示例中準確識別出'播放音樂'意圖

文本分類

在無標註數據情況下對文本進行分類

🚀 零樣本隱式雙編碼器

這是一個專為零樣本文本分類設計的模型。它基於bert-base-uncased進行微調，通過與方面歸一化的UTCD數據集進行隱式訓練，在雙編碼分類框架下完成訓練。該模型由Christopher Clarke、Yuzhao Heng、Yiping Kang、Krisztian Flautner、Lingjia Tang和Jason Mars在ACL'23會議論文《Label Agnostic Pre-training for Zero-shot Text Classification》中提出。訓練和評估該模型的代碼可在此處找到。

🚀 快速開始

本模型是一個句子轉換器模型，由Christopher Clarke、Yuzhao Heng、Yiping Kang、Krisztian Flautner、Lingjia Tang和Jason Mars在ACL'23會議論文《Label Agnostic Pre-training for Zero-shot Text Classification》中提出。訓練和評估該模型的代碼可在此處找到。

✨ 主要特性

專為零樣本文本分類設計。
基於bert-base-uncased模型進行微調。
通過與方面歸一化的UTCD數據集進行隱式訓練。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

>>> from sentence_transformers import SentenceTransformer, util as sbert_util
>>> model = SentenceTransformer(model_name_or_path='claritylab/zero-shot-implicit-bi-encoder')

>>> text = "I'd like to have this track onto my Classical Relaxations playlist."
>>> labels = [
>>>     'Add To Playlist', 'Book Restaurant', 'Get Weather', 'Play Music', 'Rate Book', 'Search Creative Work',
>>>     'Search Screening Event'
>>> ]
>>> aspect = 'intent'
>>> aspect_sep_token = model.tokenizer.additional_special_tokens[0]
>>> text = f'{aspect} {aspect_sep_token} {text}'

>>> text_embed = model.encode(text)
>>> label_embeds = model.encode(labels)
>>> scores = [sbert_util.cos_sim(text_embed, lb_embed).item() for lb_embed in label_embeds]
>>> print(scores)

[
  0.7989747524261475,
  0.003968147560954094,
  0.027803801000118256,
  0.9257574081420898,
  0.1492517590522766,
  0.010640474036335945,
  0.012045462615787983
]