Cupidon-small-ro开源罗马尼亚语模型 - 小巧便携实现卓越语义理解

首页

Cupidon Small Ro

由 BlackKakapo 开发

基于sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2微调的罗马尼亚语语义理解模型，体积小巧但性能卓越

文本嵌入

Transformers

其他开源协议:Apache-2.0 #罗马尼亚语语义理解 #小体积高效能 #多语言微调

下载量 25

发布时间 : 3/21/2025

模型简介

专门针对罗马尼亚语优化的句子嵌入模型，能够高效捕捉句子语义信息，适用于语义相似度计算、搜索和聚类任务

模型特点

高效语义理解

尽管模型体积小，但能准确捕捉罗马尼亚语句子的语义内涵

多任务适用

适用于语义文本相似度、搜索和聚类等多种自然语言处理任务

多语言基础

基于多语言预训练模型微调，可能保留一定的跨语言能力

模型能力

句子嵌入生成

语义相似度计算

文本搜索

文本聚类

使用案例

信息检索

相似文档查找

在罗马尼亚语文档库中查找语义相似的文档

可提高检索准确率和效率

内容组织

自动文本聚类

对罗马尼亚语内容进行自动主题聚类

无需人工标注即可组织大量文本

🚀 丘比特小模型 - 罗马尼亚语版

丘比特小模型 - 罗马尼亚语版（cupidon - small - ro）虽名字小巧，却能与大型模型一较高下。该句向量转换模型基于强大的 sentence - transformers/paraphrase - multilingual - MiniLM - L12 - v2 进行微调，能够以惊人的准确率捕捉罗马尼亚语句子的含义。

它体积小巧，运行高效，却蕴含着强大的语义理解能力。可以说，这个模型证明了“小身材”也有“大能量”，尤其在语义文本相似度、搜索或聚类任务中表现出色。 💔💬

🚀 快速开始

✨ 主要特性

基于强大的基础模型微调，能精准捕捉罗马尼亚语句子含义。
模型体积小巧，运行高效。
在语义文本相似度、搜索和聚类等任务中表现出色。

📦 安装指南

若要使用该模型，需先安装 sentence - transformers：

pip install -U sentence-transformers

💻 使用示例

基础用法

使用 sentence - transformers 库

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('BlackKakapo/cupidon-small-ro')
embeddings = model.encode(sentences)
print(embeddings)

使用 HuggingFace Transformers 库

若未安装 sentence - transformers，可以按以下方式使用模型：首先将输入传递给 Transformer 模型，然后对上下文词嵌入应用正确的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('BlackKakapo/cupidon-small-ro')
model = AutoModel.from_pretrained('BlackKakapo/cupidon-small-ro')

📚 详细文档

属性	详情
模型类型	句向量转换模型
训练数据	ro_sts、BlackKakapo/RoSTSC
基础模型	sentence - transformers/paraphrase - multilingual - MiniLM - L12 - v2
许可证	Apache 2.0
语言	罗马尼亚语
语言创建者	机器生成

📄 许可证

本数据集遵循 Apache 2.0 许可证。

🔗 引用

如果您在研究中使用了 BlackKakapo/cupidon - small - ro 模型，请按以下方式引用：

@misc{cupidon-small-ro,
  title={BlackKakapo/cupidon-small-ro},
  author={BlackKakapo},
  year={2025},
}

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库