Cupidon-mini-ro開源羅馬尼亞語句子轉換器 - 小體積適用於語義搜索等任務

首頁

Cupidon Mini Ro

由BlackKakapo開發

基於sentence-transformers/all-MiniLM-L6-v2微調的羅馬尼亞語句子轉換器模型，約90MB，適用於語義搜索、聚類和文本相似度任務。

文本嵌入

Transformers

其他開源協議:Apache-2.0 #羅馬尼亞語語義相似度 #輕量級句子嵌入 #多任務語義處理

下載量 27

發布時間 : 3/21/2025

模型概述

羅馬尼亞迷你丘比特是一款輕量級的句子轉換器模型，能夠將羅馬尼亞語句子映射為緊湊的密集向量，適用於語義搜索、聚類和文本相似度等任務。

模型特點

輕量級

模型僅約90MB，保持輕量級，適合資源有限的環境。

高效

基於sentence-transformers/all-MiniLM-L6-v2微調，快速高效。

羅馬尼亞語支持

專門針對羅馬尼亞語優化，能夠流暢處理羅馬尼亞語句子。

模型能力

句子嵌入

語義搜索

文本聚類

句子相似度計算

使用案例

信息檢索

語義搜索

使用模型生成的句子嵌入進行語義搜索，提高搜索結果的相關性。

文本分析

文本聚類

將相似的羅馬尼亞語文本聚類，用於主題分析或數據整理。

自然語言處理

句子相似度計算

計算兩個羅馬尼亞語句子之間的相似度，用於問答系統或推薦系統。

🚀 丘比特迷你羅馬尼亞語模型（cupidon - mini - ro）

丘比特迷你羅馬尼亞語模型（cupidon - mini - ro）是一個輕量級的模型，大小約為90MB。它基於sentence - transformers/all - MiniLM - L6 - v2進行微調，能夠將羅馬尼亞語句子平滑地映射為簡潔的密集向量，可用於語義搜索、聚類和文本相似度等任務。這個模型證明了有時候稍微大一點的規模正合適，它速度快、效率高，足以滿足你的語義文本相似度（STS）需求，同時不會過度佔用硬件資源。😎💡

🚀 快速開始

本模型可通過sentence - transformers庫或HuggingFace Transformers庫使用，下面為你詳細介紹使用方法。

📦 安裝指南

若要使用本模型，你需要安裝sentence - transformers庫，可使用以下命令進行安裝：

pip install -U sentence-transformers

💻 使用示例

基礎用法（Sentence - Transformers）

當你安裝了sentence - transformers庫後，使用該模型會變得非常簡單。以下是基礎使用示例：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('BlackKakapo/cupidon-mini-ro')
embeddings = model.encode(sentences)
print(embeddings)

高級用法（HuggingFace Transformers）

若未安裝sentence - transformers庫，你可以按以下方式使用該模型：首先將輸入傳遞給Transformer模型，然後對上下文詞嵌入應用正確的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('BlackKakapo/cupidon-mini-ro')
model = AutoModel.from_pretrained('BlackKakapo/cupidon-mini-ro')

📄 許可證

本數據集遵循 Apache 2.0 許可證。

📚 詳細文檔

引用信息

如果你在研究中使用了BlackKakapo/cupidon - mini - ro模型，請按以下格式引用：

@misc{cupidon-mini-ro,
  title={BlackKakapo/cupidon-mini-ro},
  author={BlackKakapo},
  year={2025},
}

模型信息

屬性	詳情
模型類型	句子轉換器（sentence - transformers）
訓練數據	RoSTSC數據集
基礎模型	sentence - transformers/all - MiniLM - L6 - v2
許可證	Apache 2.0
語言	羅馬尼亞語（ro）
語言創建者	機器生成