sentence_similarity_semantic_search开源模型 - 用于新闻语义搜索和句子相似度计算

首页

Sentence Similarity Semantic Search

由 Sakil 开发

该模型是基于新闻数据集微调的句子转换器，专门用于语义搜索和句子相似度计算。

文本嵌入

PyTorch

英语开源协议:Apache-2.0 #新闻语义匹配 #余弦相似度计算 #标题-内容对齐

下载量 801

发布时间 : 2/22/2023

模型简介

该模型适用于语义搜索、句子相似度计算、推荐系统等场景，可直接用于推理任务或进行二次微调。

模型特点

基于新闻数据集微调

模型使用Kaggle的新闻数据集进行微调，优化了语义搜索和句子相似度计算能力。

多功能应用

适用于语义搜索、句子相似度计算、推荐系统等多种场景。

易于使用

提供简单的API接口，可直接用于推理任务或进行二次微调。

模型能力

语义搜索

句子相似度计算

推荐系统

使用案例

信息检索

新闻标题与内容匹配

计算新闻标题与正文内容的相似度，用于内容匹配和推荐。

高相似度表示标题与内容高度相关

推荐系统

🚀 句子相似度语义搜索模型

本项目基于sentence-transformers库，对模型进行微调以用于语义搜索和句子相似度任务。通过收集新闻数据集进行训练，该模型可应用于语义搜索、句子相似度计算以及推荐系统等场景。

🚀 快速开始

你可以使用以下命令安装所需的库：

pip install -U sentence-transformers

以下是一个使用模型进行句子相似度计算的示例代码：

from sentence_transformers import SentenceTransformer, InputExample, losses
import pandas as pd
from sentence_transformers import SentenceTransformer, InputExample
from torch.utils.data import DataLoader
from sentence_transformers import SentenceTransformer, util

model_name="Sakil/sentence_similarity_semantic_search"
model = SentenceTransformer(model_name)
sentences = ['A man is eating food.',
          'A man is eating a piece of bread.',
          'The girl is carrying a baby.',
          'A man is riding a horse.',
          'A woman is playing violin.',
          'Two men pushed carts through the woods.',
          'A man is riding a white horse on an enclosed ground.',
          'A monkey is playing drums.',
          'Someone in a gorilla costume is playing a set of drums.'
          ]

#Encode all sentences
embeddings = model.encode(sentences)

#Compute cosine similarity between all pairs
cos_sim = util.cos_sim(embeddings, embeddings)

#Add all pairs to a list with their cosine similarity score
all_sentence_combinations = []

for i in range(len(cos_sim)-1):

    for j in range(i+1, len(cos_sim)):
    
        all_sentence_combinations.append([cos_sim[i][j], i, j])

#Sort list by the highest cosine similarity score

all_sentence_combinations = sorted(all_sentence_combinations, key=lambda x: x[0], reverse=True)

print("Top-5 most similar pairs:")

for score, i, j in all_sentence_combinations[0:5]:

    print("{} \t {} \t {:.4f}".format(sentences[i], sentences[j], cos_sim[i][j]))