sn-mpnet-base-snli-mnli開源文本分類模型 - 適用於零樣本和少樣本場景

首頁

Sn Mpnet Base Snli Mnli

由symanto開發

一個專為零樣本和少樣本文本分類訓練的孿生網絡模型，基於mpnet-base架構，使用SNLI和MNLI數據集訓練。

文本嵌入

Transformers

英語#零樣本分類 #句子相似度 #孿生網絡

下載量 22

發布時間 : 3/2/2022

模型概述

該模型是一個sentence-transformers模型，能夠將句子和段落映射到768維的密集向量空間，主要用於句子相似度計算和零樣本分類任務。

模型特點

零樣本分類能力

無需特定任務訓練即可進行分類任務

句子嵌入

能將句子和段落映射到768維的密集向量空間

孿生網絡架構

專門設計用於比較句子相似度的網絡結構

模型能力

句子相似度計算

零樣本文本分類

特徵提取

句子嵌入生成

使用案例

文本分類

零樣本分類

在沒有特定類別訓練數據的情況下進行分類

信息檢索

語義搜索

基於句子相似度的文檔檢索

🚀 孿生網絡模型

這是一個經過訓練的孿生網絡模型，可用於零樣本和少樣本的文本分類任務。該模型將句子和段落映射到一個768維的密集向量空間，為文本處理提供了強大的支持。

🚀 快速開始

✨ 主要特性

可用於零樣本和少樣本的文本分類。
基於 mpnet-base 基礎模型。
在 SNLI 和 MNLI 數據集上進行訓練。
屬於 sentence-transformers 模型，能將句子和段落映射到768維的密集向量空間。

📦 安裝指南

若要使用此模型，需安裝 sentence-transformers：

pip install -U sentence-transformers

💻 使用示例

基礎用法（Sentence-Transformers）

安裝 sentence-transformers 後，使用該模型變得十分簡單：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('{MODEL_NAME}')
embeddings = model.encode(sentences)
print(embeddings)

高級用法（HuggingFace Transformers）

若未安裝 sentence-transformers，可按以下方式使用該模型：首先，將輸入數據傳入Transformer模型，然後對上下文詞嵌入應用正確的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('{MODEL_NAME}')
model = AutoModel.from_pretrained('{MODEL_NAME}')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, max pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

信息表格

屬性	詳情
模型類型	孿生網絡模型，用於零樣本和少樣本的文本分類
訓練數據	SNLI、MNLI
管道標籤	句子相似度
標籤	零樣本分類、句子轉換器、特徵提取、句子相似度、轉換器