full - sentence - distillroberta3開源模型 - 簡單實現句子相似度快速計算

首頁

Full Sentence Distillroberta3

由osanseviero開發

基於Sentence-Transformers的句子相似度計算模型，採用RoBERTa架構和均值池化方式

文本嵌入 #句子相似度 #均值池化 #文本嵌入

下載量 18

發布時間 : 3/2/2022

模型概述

該模型專門用於計算句子之間的語義相似度，適用於文本匹配、信息檢索等自然語言處理任務

模型特點

高效句子嵌入

通過RoBERTa架構生成高質量的句子向量表示

靈活池化方式

支持均值池化等多種句子向量生成方式

即插即用

兼容HuggingFace Transformers和Sentence-Transformers兩種使用方式

模型能力

句子向量生成

語義相似度計算

文本匹配

使用案例

信息檢索

相似文檔查找

通過計算文檔向量相似度實現相關文檔推薦

問答系統

問題匹配

識別用戶問題與知識庫問題的語義相似度

🚀 句子相似度模型

本模型可用於計算句子之間的相似度，在自然語言處理領域有著廣泛的應用，能幫助用戶快速準確地判斷句子間的語義關聯。

🚀 快速開始

本模型可藉助 sentence-transformers 庫或 HuggingFace Transformers 庫來使用，以下是詳細的使用步驟。

📦 安裝指南

若要使用 sentence-transformers 庫，可通過以下命令進行安裝：

pip install -U sentence-transformers

💻 使用示例

基礎用法（Sentence-Transformers）

當安裝了 sentence-transformers 庫後，使用本模型會更加便捷：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence"]

model = SentenceTransformer(TODO)
embeddings = model.encode(sentences)
print(embeddings)

高級用法（HuggingFace Transformers）

from transformers import AutoTokenizer, AutoModel
import torch

# 如果你想使用自己的池化函數，下一步是可選的。
# 最大池化 - 對每個維度取時間上的最大值。 
def max_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] # 模型輸出的第一個元素包含所有標記嵌入
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    token_embeddings[input_mask_expanded == 0] = -1e9  # 將填充標記設置為大的負值
    max_over_time = torch.max(token_embeddings, 1)[0]
    return max_over_time

# 我們想要獲取句子嵌入的句子
sentences = ['This is an example sentence']

# 從 HuggingFace Hub 加載模型
tokenizer = AutoTokenizer.from_pretrained(TODO)
model = AutoModel.from_pretrained(TODO)

# 對句子進行分詞
encoded_input = tokenizer(sentences, padding=True, truncation=True, max_length=128, return_tensors='pt')

# 計算標記嵌入
with torch.no_grad():
    model_output = model(**encoded_input)

# 進行池化。在這種情況下，是最大池化。
sentence_embeddings = max_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)