rubert - mini - uncased開源模型 - 免費計算俄英句子嵌入向量，不區分大小寫

首頁

Rubert Mini Uncased

由sergeyzh開發

該模型用於計算俄語和英語句子的嵌入向量，通過蒸餾ai-forever/FRIDA的嵌入向量獲得。模型屬於uncased類型，不區分文本中的大小寫字母。

文本嵌入

Transformers

支持多種語言開源協議:MIT #俄英雙語嵌入 #句子相似度計算 #前綴優化

下載量 724

發布時間 : 3/25/2025

模型概述

該模型用於計算俄語和英語句子的嵌入向量，通過蒸餾FRIDA的嵌入向量獲得。嵌入向量大小為384，層數為7，上下文大小為512個標記。模型支持多種前綴功能以提高不同任務的性能。

模型特點

多語言支持

支持俄語和英語句子的嵌入向量計算

前綴功能

繼承自FRIDA的多任務前綴功能，可針對不同任務優化性能

微型模型

輕量級設計，嵌入向量大小為384，層數為7，適合資源有限的環境

不區分大小寫

uncased類型，不區分文本中的大小寫字母

模型能力

計算句子嵌入向量

語義文本相似度計算

複述識別

自然語言推理

情感分析

毒性識別

使用案例

文本相似度

搜索查詢匹配

使用search_query前綴優化搜索查詢與文檔的匹配

在ruMTEB基準測試中NDCG@10得分為0.791

複述識別

使用paraphrase前綴識別語義相似的句子

在複述識別任務中得分為0.760

文本分類

情感分析

使用categorize_sentiment前綴進行情感分類

在情感分析任務中得分為0.798

主題分類

使用categorize_topic前綴進行主題分類

在標題分類任務中準確率達0.884

🚀 rubert-mini-uncased

本模型用於計算俄語和英語句子的嵌入向量，它通過蒸餾 ai-forever/FRIDA 的嵌入向量得到（FRIDA 的嵌入向量維度為 1536，層數為 24）。FRIDA 的主要使用模式 CLS pooling 被替換為 mean pooling，且未對模型行為進行其他更改（如修改或過濾嵌入向量、使用額外模型）。蒸餾在最大程度上進行，涵蓋俄語和英語句子的嵌入向量以及前綴處理。

該模型屬於 uncased 類型，在處理文本時不區分大小寫字母（例如，“С Новым Годом!” 和 “С НОВЫМ ГОДОМ!” 編碼為相同的 token 序列，且嵌入向量值相等）。模型的嵌入向量維度為 384，層數為 7，上下文長度與 FRIDA 一致，為 512 個 token。

✨ 主要特性

多語言支持：可處理俄語和英語句子的嵌入向量計算。
蒸餾優化：通過蒸餾 FRIDA 的嵌入向量得到，提升效率。
Pooling 替換：將 CLS pooling 替換為 mean pooling。

📦 安裝指南

文檔中未提及具體安裝步驟，若需使用該模型，可參考 transformers 或 sentence-transformers 庫的官方安裝指南。

💻 使用示例

基礎用法

import torch
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel


def pool(hidden_state, mask, pooling_method="mean"):
    if pooling_method == "mean":
        s = torch.sum(hidden_state * mask.unsqueeze(-1).float(), dim=1)
        d = mask.sum(axis=1, keepdim=True).float()
        return s / d
    elif pooling_method == "cls":
        return hidden_state[:, 0]

inputs = [
    # 
    "paraphrase: В Ярославской области разрешили работу бань, но без посетителей",
    "categorize_entailment: Женщину доставили в больницу, за ее жизнь сейчас борются врачи.",
    "search_query: Сколько программистов нужно, чтобы вкрутить лампочку?",
    # 
    "paraphrase: Ярославским баням разрешили работать без посетителей",
    "categorize_entailment: Женщину спасают врачи.",
    "search_document: Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование."
]

tokenizer = AutoTokenizer.from_pretrained("sergeyzh/rubert-mini-uncased")
model = AutoModel.from_pretrained("sergeyzh/rubert-mini-uncased")

tokenized_inputs = tokenizer(inputs, max_length=512, padding=True, truncation=True, return_tensors="pt")

with torch.no_grad():
    outputs = model(**tokenized_inputs)
    
embeddings = pool(
    outputs.last_hidden_state, 
    tokenized_inputs["attention_mask"],
    pooling_method="mean"
)

embeddings = F.normalize(embeddings, p=2, dim=1)
sim_scores = embeddings[:3] @ embeddings[3:].T
print(sim_scores.diag().tolist())
# [0.9366128444671631, 0.8030662536621094, 0.6826460957527161]
# [0.9360030293464661, 0.8591322302818298, 0.728583037853241] - FRIDA

高級用法

from sentence_transformers import SentenceTransformer

# loads model with mean pooling
model = SentenceTransformer("sergeyzh/rubert-mini-uncased")

paraphrase = model.encode(["В Ярославской области разрешили работу бань, но без посетителей", "Ярославским баням разрешили работать без посетителей"], prompt="paraphrase: ")
print(paraphrase[0] @ paraphrase[1].T) 

# 0.9366129
# 0.9360032 - FRIDA

categorize_entailment = model.encode(["Женщину доставили в больницу, за ее жизнь сейчас борются врачи.", "Женщину спасают врачи."], prompt="categorize_entailment: ")
print(categorize_entailment[0] @ categorize_entailment[1].T) 
# 0.80306643
# 0.8591322 - FRIDA

query_embedding = model.encode("Сколько программистов нужно, чтобы вкрутить лампочку?", prompt="search_query: ")
document_embedding = model.encode("Чтобы вкрутить лампочку, требуется три программиста: один напишет программу извлечения лампочки, другой — вкручивания лампочки, а третий проведет тестирование.", prompt="search_document: ")
print(query_embedding @ document_embedding.T) 
# 0.68264616
# 0.7285831 - FRIDA

📚 詳細文檔

前綴

所有前綴均繼承自 FRIDA。以下是在 encodechka 中使用的前綴及其對模型評估的影響：

前綴	STS	PI	NLI	SA	TI
-	0.817	0.734	0.448	0.799	0.971
search_query:	0.828	0.752	0.463	0.794	0.973
search_document:	0.794	0.730	0.446	0.797	0.971
paraphrase:	0.823	0.760	0.446	0.802	0.973
categorize:	0.820	0.753	0.482	0.805	0.972
categorize_sentiment:	0.604	0.595	0.431	0.798	0.955
categorize_topic:	0.711	0.485	0.391	0.750	0.962
categorize_entailment:	0.805	0.750	0.525	0.800	0.969

任務：

語義文本相似度（STS）
釋義識別（PI）
自然語言推理（NLI）
情感分析（SA）
毒性識別（TI）

指標

模型在 ruMTEB 基準測試中的評估結果如下：

模型名稱	指標	Frida	rubert-mini-uncased	rubert-mini-frida	multilingual-e5-large-instruct	multilingual-e5-large
CEDRClassification	準確率	0.646	0.586	0.552	0.500	0.448
GeoreviewClassification	準確率	0.577	0.485	0.464	0.559	0.497
GeoreviewClusteringP2P	V-measure	0.783	0.683	0.698	0.743	0.605
HeadlineClassification	準確率	0.890	0.884	0.882	0.862	0.758
InappropriatenessClassification	準確率	0.783	0.705	0.698	0.655	0.616
KinopoiskClassification	準確率	0.705	0.607	0.595	0.661	0.566
RiaNewsRetrieval	NDCG@10	0.868	0.791	0.721	0.824	0.807
RuBQReranking	MAP@10	0.771	0.713	0.711	0.717	0.756
RuBQRetrieval	NDCG@10	0.724	0.640	0.654	0.692	0.741
RuReviewsClassification	準確率	0.751	0.684	0.658	0.686	0.653
RuSTSBenchmarkSTS	皮爾遜相關係數	0.814	0.795	0.803	0.840	0.831
RuSciBenchGRNTIClassification	準確率	0.699	0.653	0.625	0.651	0.582
RuSciBenchGRNTIClusteringP2P	V-measure	0.670	0.618	0.586	0.622	0.520
RuSciBenchOECDClassification	準確率	0.546	0.509	0.491	0.502	0.445
RuSciBenchOECDClusteringP2P	V-measure	0.566	0.525	0.507	0.528	0.450
SensitiveTopicsClassification	準確率	0.398	0.365	0.373	0.323	0.257
TERRaClassification	平均精度	0.665	0.604	0.604	0.639	0.584
Classification	準確率	0.707	0.657	0.631	0.654	0.588
Clustering	V-measure	0.673	0.608	0.597	0.631	0.525
MultiLabelClassification	準確率	0.522	0.476	0.463	0.412	0.353
PairClassification	平均精度	0.665	0.604	0.604	0.639	0.584
Reranking	MAP@10	0.771	0.713	0.711	0.717	0.756
Retrieval	NDCG@10	0.796	0.715	0.687	0.758	0.774
STS	皮爾遜相關係數	0.814	0.795	0.803	0.840	0.831
Average	平均值	0.707	0.653	0.642	0.664	0.630

📄 許可證

本模型採用 MIT 許可證。

模型信息

屬性	詳情
模型類型	用於計算俄語和英語句子嵌入向量的蒸餾模型
訓練數據	IlyaGusev/gazeta、zloelias/lenta-ru、HuggingFaceFW/fineweb-2、HuggingFaceFW/fineweb
基礎模型	sergeyzh/rubert-mini-sts