just-a-test開源模型 - 免費計算句子相似度，支持中文文本處理

首頁

Just A Test

由osanseviero開發

這是一個基於Roberta架構的句子相似度計算模型，支持中文文本處理

文本嵌入 #句子相似度 #均值池化 #文本嵌入

下載量 15

發布時間 : 3/2/2022

模型概述

該模型主要用於計算句子之間的相似度，採用均值池化方式進行特徵提取

模型特點

均值池化

採用均值池化方式提取句子特徵，適用於句子相似度計算任務

Roberta架構

基於強大的Roberta模型架構，具有優秀的文本表示能力

模型能力

句子相似度計算

文本特徵提取

語義表示學習

使用案例

文本匹配

問答系統

用於匹配用戶問題與知識庫中的候選答案

文檔檢索

計算查詢語句與文檔的相似度以提高檢索效果

語義分析

文本聚類

基於句子相似度進行文本聚類分析

🚀 句子相似度模型

本模型主要用於計算句子之間的相似度，藉助預訓練的Transformer架構，能高效且準確地將句子轉換為向量表示，從而方便地計算句子間的相似度。

🚀 快速開始

本模型可通過sentence-transformers庫或HuggingFace Transformers庫使用，下面分別介紹使用方法。

📦 安裝指南

若要使用sentence-transformers庫，可通過以下命令進行安裝：

pip install -U sentence-transformers

💻 使用示例

基礎用法（Sentence-Transformers）

當安裝了 sentence-transformers 庫後，使用本模型會更加便捷：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence"]

model = SentenceTransformer(TODO)
embeddings = model.encode(sentences)
print(embeddings)

高級用法（HuggingFace Transformers）

from transformers import AutoTokenizer, AutoModel
import torch

# 如果你想使用自己的池化函數，下一步是可選的。
# 最大池化 - 對每個維度在時間上取最大值。 
def max_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] # 模型輸出的第一個元素包含所有標記嵌入
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    token_embeddings[input_mask_expanded == 0] = -1e9  # 將填充標記設置為大的負值
    max_over_time = torch.max(token_embeddings, 1)[0]
    return max_over_time

# 我們想要獲取句子嵌入的句子
sentences = ['This is an example sentence']

# 從HuggingFace Hub加載模型
tokenizer = AutoTokenizer.from_pretrained(TODO)
model = AutoModel.from_pretrained(TODO)

# 對句子進行分詞
encoded_input = tokenizer(sentences, padding=True, truncation=True, max_length=128, return_tensors='pt')

# 計算標記嵌入
with torch.no_grad():
    model_output = model(**encoded_input)

# 執行池化。在這種情況下，是最大池化。
sentence_embeddings = max_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)