Cupidon-small-ro開源羅馬尼亞語模型 - 小巧便攜實現卓越語義理解

首頁

Cupidon Small Ro

由BlackKakapo開發

基於sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2微調的羅馬尼亞語語義理解模型，體積小巧但性能卓越

文本嵌入

Transformers

其他開源協議:Apache-2.0 #羅馬尼亞語語義理解 #小體積高效能 #多語言微調

下載量 25

發布時間 : 3/21/2025

模型概述

專門針對羅馬尼亞語優化的句子嵌入模型，能夠高效捕捉句子語義信息，適用於語義相似度計算、搜索和聚類任務

模型特點

高效語義理解

儘管模型體積小，但能準確捕捉羅馬尼亞語句子的語義內涵

多任務適用

適用於語義文本相似度、搜索和聚類等多種自然語言處理任務

多語言基礎

基於多語言預訓練模型微調，可能保留一定的跨語言能力

模型能力

句子嵌入生成

語義相似度計算

文本搜索

文本聚類

使用案例

信息檢索

相似文檔查找

在羅馬尼亞語文檔庫中查找語義相似的文檔

可提高檢索準確率和效率

內容組織

自動文本聚類

對羅馬尼亞語內容進行自動主題聚類

無需人工標註即可組織大量文本

🚀 丘比特小模型 - 羅馬尼亞語版

丘比特小模型 - 羅馬尼亞語版（cupidon - small - ro）雖名字小巧，卻能與大型模型一較高下。該句向量轉換模型基於強大的 sentence - transformers/paraphrase - multilingual - MiniLM - L12 - v2 進行微調，能夠以驚人的準確率捕捉羅馬尼亞語句子的含義。

它體積小巧，運行高效，卻蘊含著強大的語義理解能力。可以說，這個模型證明了“小身材”也有“大能量”，尤其在語義文本相似度、搜索或聚類任務中表現出色。 💔💬

🚀 快速開始

✨ 主要特性

基於強大的基礎模型微調，能精準捕捉羅馬尼亞語句子含義。
模型體積小巧，運行高效。
在語義文本相似度、搜索和聚類等任務中表現出色。

📦 安裝指南

若要使用該模型，需先安裝 sentence - transformers：

pip install -U sentence-transformers

💻 使用示例

基礎用法

使用 sentence - transformers 庫

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('BlackKakapo/cupidon-small-ro')
embeddings = model.encode(sentences)
print(embeddings)

使用 HuggingFace Transformers 庫

若未安裝 sentence - transformers，可以按以下方式使用模型：首先將輸入傳遞給 Transformer 模型，然後對上下文詞嵌入應用正確的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('BlackKakapo/cupidon-small-ro')
model = AutoModel.from_pretrained('BlackKakapo/cupidon-small-ro')

📚 詳細文檔

屬性	詳情
模型類型	句向量轉換模型
訓練數據	ro_sts、BlackKakapo/RoSTSC
基礎模型	sentence - transformers/paraphrase - multilingual - MiniLM - L12 - v2
許可證	Apache 2.0
語言	羅馬尼亞語
語言創建者	機器生成

📄 許可證

本數據集遵循 Apache 2.0 許可證。

🔗 引用

如果您在研究中使用了 BlackKakapo/cupidon - small - ro 模型，請按以下方式引用：

@misc{cupidon-small-ro,
  title={BlackKakapo/cupidon-small-ro},
  author={BlackKakapo},
  year={2025},
}

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫