Cupidon-mini-ro开源罗马尼亚语句子转换器 - 小体积适用于语义搜索等任务

首页

Cupidon Mini Ro

由 BlackKakapo 开发

基于sentence-transformers/all-MiniLM-L6-v2微调的罗马尼亚语句子转换器模型，约90MB，适用于语义搜索、聚类和文本相似度任务。

文本嵌入

Transformers

其他开源协议:Apache-2.0 #罗马尼亚语语义相似度 #轻量级句子嵌入 #多任务语义处理

下载量 27

发布时间 : 3/21/2025

模型简介

罗马尼亚迷你丘比特是一款轻量级的句子转换器模型，能够将罗马尼亚语句子映射为紧凑的密集向量，适用于语义搜索、聚类和文本相似度等任务。

模型特点

轻量级

模型仅约90MB，保持轻量级，适合资源有限的环境。

高效

基于sentence-transformers/all-MiniLM-L6-v2微调，快速高效。

罗马尼亚语支持

专门针对罗马尼亚语优化，能够流畅处理罗马尼亚语句子。

模型能力

句子嵌入

语义搜索

文本聚类

句子相似度计算

使用案例

信息检索

语义搜索

使用模型生成的句子嵌入进行语义搜索，提高搜索结果的相关性。

文本分析

文本聚类

将相似的罗马尼亚语文本聚类，用于主题分析或数据整理。

自然语言处理

句子相似度计算

计算两个罗马尼亚语句子之间的相似度，用于问答系统或推荐系统。

🚀 丘比特迷你罗马尼亚语模型（cupidon - mini - ro）

丘比特迷你罗马尼亚语模型（cupidon - mini - ro）是一个轻量级的模型，大小约为90MB。它基于sentence - transformers/all - MiniLM - L6 - v2进行微调，能够将罗马尼亚语句子平滑地映射为简洁的密集向量，可用于语义搜索、聚类和文本相似度等任务。这个模型证明了有时候稍微大一点的规模正合适，它速度快、效率高，足以满足你的语义文本相似度（STS）需求，同时不会过度占用硬件资源。😎💡

🚀 快速开始

本模型可通过sentence - transformers库或HuggingFace Transformers库使用，下面为你详细介绍使用方法。

📦 安装指南

若要使用本模型，你需要安装sentence - transformers库，可使用以下命令进行安装：

pip install -U sentence-transformers

💻 使用示例

基础用法（Sentence - Transformers）

当你安装了sentence - transformers库后，使用该模型会变得非常简单。以下是基础使用示例：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('BlackKakapo/cupidon-mini-ro')
embeddings = model.encode(sentences)
print(embeddings)

高级用法（HuggingFace Transformers）

若未安装sentence - transformers库，你可以按以下方式使用该模型：首先将输入传递给Transformer模型，然后对上下文词嵌入应用正确的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('BlackKakapo/cupidon-mini-ro')
model = AutoModel.from_pretrained('BlackKakapo/cupidon-mini-ro')

📄 许可证

本数据集遵循 Apache 2.0 许可证。

📚 详细文档

引用信息

如果你在研究中使用了BlackKakapo/cupidon - mini - ro模型，请按以下格式引用：

@misc{cupidon-mini-ro,
  title={BlackKakapo/cupidon-mini-ro},
  author={BlackKakapo},
  year={2025},
}

模型信息

属性	详情
模型类型	句子转换器（sentence - transformers）
训练数据	RoSTSC数据集
基础模型	sentence - transformers/all - MiniLM - L6 - v2
许可证	Apache 2.0
语言	罗马尼亚语（ro）
语言创建者	机器生成