full - sentence - distillroberta3开源模型 - 简单实现句子相似度快速计算

首页

Full Sentence Distillroberta3

由 osanseviero 开发

基于Sentence-Transformers的句子相似度计算模型，采用RoBERTa架构和均值池化方式

文本嵌入 #句子相似度 #均值池化 #文本嵌入

下载量 18

发布时间 : 3/2/2022

模型简介

该模型专门用于计算句子之间的语义相似度，适用于文本匹配、信息检索等自然语言处理任务

模型特点

高效句子嵌入

通过RoBERTa架构生成高质量的句子向量表示

灵活池化方式

支持均值池化等多种句子向量生成方式

即插即用

兼容HuggingFace Transformers和Sentence-Transformers两种使用方式

模型能力

句子向量生成

语义相似度计算

文本匹配

使用案例

信息检索

相似文档查找

通过计算文档向量相似度实现相关文档推荐

问答系统

问题匹配

识别用户问题与知识库问题的语义相似度

🚀 句子相似度模型

本模型可用于计算句子之间的相似度，在自然语言处理领域有着广泛的应用，能帮助用户快速准确地判断句子间的语义关联。

🚀 快速开始

本模型可借助 sentence-transformers 库或 HuggingFace Transformers 库来使用，以下是详细的使用步骤。

📦 安装指南

若要使用 sentence-transformers 库，可通过以下命令进行安装：

pip install -U sentence-transformers

💻 使用示例

基础用法（Sentence-Transformers）

当安装了 sentence-transformers 库后，使用本模型会更加便捷：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence"]

model = SentenceTransformer(TODO)
embeddings = model.encode(sentences)
print(embeddings)

高级用法（HuggingFace Transformers）

from transformers import AutoTokenizer, AutoModel
import torch

# 如果你想使用自己的池化函数，下一步是可选的。
# 最大池化 - 对每个维度取时间上的最大值。 
def max_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] # 模型输出的第一个元素包含所有标记嵌入
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    token_embeddings[input_mask_expanded == 0] = -1e9  # 将填充标记设置为大的负值
    max_over_time = torch.max(token_embeddings, 1)[0]
    return max_over_time

# 我们想要获取句子嵌入的句子
sentences = ['This is an example sentence']

# 从 HuggingFace Hub 加载模型
tokenizer = AutoTokenizer.from_pretrained(TODO)
model = AutoModel.from_pretrained(TODO)

# 对句子进行分词
encoded_input = tokenizer(sentences, padding=True, truncation=True, max_length=128, return_tensors='pt')

# 计算标记嵌入
with torch.no_grad():
    model_output = model(**encoded_input)

# 进行池化。在这种情况下，是最大池化。
sentence_embeddings = max_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)