just-a-test开源模型 - 免费计算句子相似度，支持中文文本处理

首页

Just A Test

由 osanseviero 开发

这是一个基于Roberta架构的句子相似度计算模型，支持中文文本处理

文本嵌入 #句子相似度 #均值池化 #文本嵌入

下载量 15

发布时间 : 3/2/2022

模型简介

该模型主要用于计算句子之间的相似度，采用均值池化方式进行特征提取

模型特点

均值池化

采用均值池化方式提取句子特征，适用于句子相似度计算任务

Roberta架构

基于强大的Roberta模型架构，具有优秀的文本表示能力

模型能力

句子相似度计算

文本特征提取

语义表示学习

使用案例

文本匹配

问答系统

用于匹配用户问题与知识库中的候选答案

文档检索

计算查询语句与文档的相似度以提高检索效果

语义分析

文本聚类

基于句子相似度进行文本聚类分析

🚀 句子相似度模型

本模型主要用于计算句子之间的相似度，借助预训练的Transformer架构，能高效且准确地将句子转换为向量表示，从而方便地计算句子间的相似度。

🚀 快速开始

本模型可通过sentence-transformers库或HuggingFace Transformers库使用，下面分别介绍使用方法。

📦 安装指南

若要使用sentence-transformers库，可通过以下命令进行安装：

pip install -U sentence-transformers

💻 使用示例

基础用法（Sentence-Transformers）

当安装了 sentence-transformers 库后，使用本模型会更加便捷：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence"]

model = SentenceTransformer(TODO)
embeddings = model.encode(sentences)
print(embeddings)

高级用法（HuggingFace Transformers）

from transformers import AutoTokenizer, AutoModel
import torch

# 如果你想使用自己的池化函数，下一步是可选的。
# 最大池化 - 对每个维度在时间上取最大值。 
def max_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] # 模型输出的第一个元素包含所有标记嵌入
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    token_embeddings[input_mask_expanded == 0] = -1e9  # 将填充标记设置为大的负值
    max_over_time = torch.max(token_embeddings, 1)[0]
    return max_over_time

# 我们想要获取句子嵌入的句子
sentences = ['This is an example sentence']

# 从HuggingFace Hub加载模型
tokenizer = AutoTokenizer.from_pretrained(TODO)
model = AutoModel.from_pretrained(TODO)

# 对句子进行分词
encoded_input = tokenizer(sentences, padding=True, truncation=True, max_length=128, return_tensors='pt')

# 计算标记嵌入
with torch.no_grad():
    model_output = model(**encoded_input)

# 执行池化。在这种情况下，是最大池化。
sentence_embeddings = max_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)