🚀 丘比特迷你羅馬尼亞語模型(cupidon - mini - ro)
丘比特迷你羅馬尼亞語模型(cupidon - mini - ro)是一個輕量級的模型,大小約為90MB。它基於sentence - transformers/all - MiniLM - L6 - v2
進行微調,能夠將羅馬尼亞語句子平滑地映射為簡潔的密集向量,可用於語義搜索、聚類和文本相似度等任務。這個模型證明了有時候稍微大一點的規模正合適,它速度快、效率高,足以滿足你的語義文本相似度(STS)需求,同時不會過度佔用硬件資源。😎💡
🚀 快速開始
本模型可通過sentence - transformers
庫或HuggingFace Transformers
庫使用,下面為你詳細介紹使用方法。
📦 安裝指南
若要使用本模型,你需要安裝sentence - transformers
庫,可使用以下命令進行安裝:
pip install -U sentence-transformers
💻 使用示例
基礎用法(Sentence - Transformers)
當你安裝了sentence - transformers庫後,使用該模型會變得非常簡單。以下是基礎使用示例:
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer('BlackKakapo/cupidon-mini-ro')
embeddings = model.encode(sentences)
print(embeddings)
高級用法(HuggingFace Transformers)
若未安裝sentence - transformers庫,你可以按以下方式使用該模型:首先將輸入傳遞給Transformer模型,然後對上下文詞嵌入應用正確的池化操作。
from transformers import AutoTokenizer, AutoModel
import torch
def mean_pooling(model_output, attention_mask):
token_embeddings = model_output[0]
input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)
sentences = ['This is an example sentence', 'Each sentence is converted']
tokenizer = AutoTokenizer.from_pretrained('BlackKakapo/cupidon-mini-ro')
model = AutoModel.from_pretrained('BlackKakapo/cupidon-mini-ro')
📄 許可證
本數據集遵循 Apache 2.0 許可證。
📚 詳細文檔
引用信息
如果你在研究中使用了BlackKakapo/cupidon - mini - ro
模型,請按以下格式引用:
@misc{cupidon-mini-ro,
title={BlackKakapo/cupidon-mini-ro},
author={BlackKakapo},
year={2025},
}
模型信息
屬性 |
詳情 |
模型類型 |
句子轉換器(sentence - transformers) |
訓練數據 |
RoSTSC數據集 |
基礎模型 |
sentence - transformers/all - MiniLM - L6 - v2 |
許可證 |
Apache 2.0 |
語言 |
羅馬尼亞語(ro) |
語言創建者 |
機器生成 |