rubert-mini-sts開源模型 - 免費計算俄語句子緊湊嵌入向量，超實用！

首頁

Rubert Mini Sts

由sergeyzh開發

這是一個用於計算俄語句子緊湊嵌入向量的基礎BERT模型，基於cointegrated/rubert-tiny2開發，層數從3層增加到7層。

文本嵌入

Transformers

其他開源協議:MIT #俄語語義相似度 #CPU優化 #長文本處理

下載量 2,351

發布時間 : 3/30/2024

模型概述

該模型用於俄語句子的語義文本相似度計算，生成緊湊的嵌入向量，適用於CPU環境。

模型特點

高效CPU運行

專為CPU環境優化，具有較高的運行效率

長上下文支持

支持2048的上下文長度

緊湊嵌入向量

生成312維的緊湊嵌入向量

性能優化

相比基礎模型rubert-tiny2，層數從3層增加到7層，提升性能

模型能力

俄語句子嵌入

語義相似度計算

文本特徵提取

使用案例

文本相似度

文檔檢索

計算文檔間的語義相似度

問答系統

匹配問題與候選答案的相似度

信息檢索

搜索引擎優化

改進俄語搜索結果的語義相關性

🚀 用於CPU上語義文本相似度（STS）的基礎Bert模型

這是一個基礎的BERT模型，用於計算俄語句子的緊湊嵌入向量。該模型基於 cointegrated/rubert-tiny2 構建，具有相似的上下文長度（2048）和嵌入維度（312），但層數從3增加到了7。

模型信息

屬性	詳情
模型類型	用於語義文本相似度的基礎Bert模型
訓練數據集	IlyaGusev/gazeta、zloelias/lenta-ru
許可證	MIT
基礎模型	cointegrated/rubert-tiny2

🚀 快速開始

✨ 主要特性

專為俄語句子的語義文本相似度計算設計。
基於 cointegrated/rubert-tiny2 模型，增加了層數以提升性能。
可在CPU上高效運行。

📦 安裝指南

在使用模型前，需要安裝必要的庫：

pip install transformers sentencepiece

💻 使用示例

基礎用法

使用 transformers 庫調用模型：

# pip install transformers sentencepiece
import torch
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("sergeyzh/rubert-mini-sts")
model = AutoModel.from_pretrained("sergeyzh/rubert-mini-sts")
# model.cuda()  # uncomment it if you have a GPU

def embed_bert_cls(text, model, tokenizer):
    t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')
    with torch.no_grad():
        model_output = model(**{k: v.to(model.device) for k, v in t.items()})
    embeddings = model_output.last_hidden_state[:, 0, :]
    embeddings = torch.nn.functional.normalize(embeddings)
    return embeddings[0].cpu().numpy()

print(embed_bert_cls('привет мир', model, tokenizer).shape)
# (312,)

高級用法

使用 sentence_transformers 庫調用模型：

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('sergeyzh/rubert-mini-sts')

sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(util.dot_score(embeddings, embeddings))

🔧 技術細節

模型評估指標

模型在 encodechka 基準測試中的評估結果如下：

模型	STS	PI	NLI	SA	TI
intfloat/multilingual-e5-large	0.862	0.727	0.473	0.810	0.979
sergeyzh/LaBSE-ru-sts	0.845	0.737	0.481	0.805	0.957
sergeyzh/rubert-mini-sts	0.815	0.723	0.477	0.791	0.949
sergeyzh/rubert-tiny-sts	0.797	0.702	0.453	0.778	0.946
Tochka-AI/ruRoPEBert-e5-base-512	0.793	0.704	0.457	0.803	0.970
cointegrated/LaBSE-en-ru	0.794	0.659	0.431	0.761	0.946
cointegrated/rubert-tiny2	0.750	0.651	0.417	0.737	0.937

任務說明：

語義文本相似度（STS）
釋義識別（PI）
自然語言推理（NLI）
情感分析（SA）
毒性識別（TI）

性能和大小

模型在 encodechka 基準測試中的性能和大小指標如下：

模型	CPU	GPU	大小	維度	上下文長度	詞彙量
intfloat/multilingual-e5-large	149.026	15.629	2136	1024	514	250002
sergeyzh/LaBSE-ru-sts	42.835	8.561	490	768	512	55083
sergeyzh/rubert-mini-sts	6.417	5.517	123	312	2048	83828
sergeyzh/rubert-tiny-sts	3.208	3.379	111	312	2048	83828
Tochka-AI/ruRoPEBert-e5-base-512	43.314	9.338	532	768	512	69382
cointegrated/LaBSE-en-ru	42.867	8.549	490	768	512	55083
cointegrated/rubert-tiny2	3.212	3.384	111	312	2048	83828