zero-shot-explicit-bi-encoder開源文本分類模型 - 無需樣本快速完成文本分類

首頁

Zero Shot Explicit Bi Encoder

由claritylab開發

基於BERT架構的零樣本文本分類模型，採用顯式訓練方法在UTCD數據集上訓練

文本分類

Transformers

英語開源協議:MIT #零樣本分類 #雙編碼器架構 #文本意圖識別

下載量 31

發布時間 : 5/15/2023

模型概述

專為零樣本文本分類任務設計的雙編碼器模型，通過aspect-normalized處理優化標籤無關的預訓練

模型特點

零樣本學習能力

無需特定領域訓練數據即可對新類別進行分類

顯式訓練框架

採用標籤無關的預訓練方法優化分類性能

雙編碼器架構

獨立編碼文本和標籤實現高效相似度計算

模型能力

零樣本文本分類

語義相似度計算

多標籤分類

使用案例

智能助手

用戶意圖識別

識別用戶查詢的潛在意圖類別

準確區分播放音樂/添加播放列表等相似意圖

內容分類

動態標籤系統

為未見過的新內容自動分配標籤

🚀 零樣本顯式雙編碼器

本項目是一個用於零樣本文本分類的模型，藉助顯式訓練與方面歸一化的UTCD數據集，在雙編碼分類框架下進行訓練。它基於Sentence - Transformers構建，代碼可在指定倉庫獲取。

🚀 快速開始

本模型是一個 sentence - transformers 模型。它在ACL'23會議的研究成果論文 Label Agnostic Pre - training for Zero - shot Text Classification 中被提出，作者為 Christopher Clarke、Yuzhao Heng、Yiping Kang、Krisztian Flautner、Lingjia Tang 和 Jason Mars。訓練和評估該模型的代碼可在 [此處](https://github.com/ChrisIsKing/zero - shot - text - classification/tree/master) 找到。

✨ 主要特性

專為零樣本文本分類設計。
在雙編碼分類框架下，通過使用方面歸一化的 UTCD 數據集進行顯式訓練。
微調基礎模型：[bert - base - uncased](https://huggingface.co/bert - base - uncased)

📦 安裝指南

文檔未提供安裝步驟，暫不展示相關內容。

💻 使用示例

基礎用法

>>> from sentence_transformers import SentenceTransformer, util as sbert_util
>>> model = SentenceTransformer(model_name_or_path='claritylab/zero-shot-explicit-bi-encoder')

>>> text = "I'd like to have this track onto my Classical Relaxations playlist."
>>> labels = [
>>>     'Add To Playlist', 'Book Restaurant', 'Get Weather', 'Play Music', 'Rate Book', 'Search Creative Work',
>>>     'Search Screening Event'
>>> ]

>>> text_embed = model.encode(text)
>>> label_embeds = model.encode(labels)
>>> scores = [sbert_util.cos_sim(text_embed, lb_embed).item() for lb_embed in label_embeds]
>>> print(scores)

[
  0.53502357006073,
  0.051911696791648865,
  0.0546676367521286,
  0.5633962750434875,
  0.28765711188316345,
  0.17751818895339966,
  0.18489906191825867
]