LaBSE-ru-sts開源模型 - 精準計算俄語句子嵌入，適用語義文本相似度任務

首頁

Labse Ru Sts

由sergeyzh開發

高質量俄語句子嵌入計算BERT模型，基於cointegrated/LaBSE-en-ru優化，適用於語義文本相似度任務

文本嵌入

Transformers

其他開源協議:MIT #俄語語義相似度 #多任務優化 #高效GPU推理

下載量 4,650

發布時間 : 3/24/2024

模型概述

該模型專門用於俄語語義文本相似度計算，能夠生成高質量的句子嵌入向量，適用於多種自然語言處理任務

模型特點

高質量俄語嵌入

專門針對俄語優化的句子嵌入表示，在俄語語義相似度任務上表現優異

高效計算

相比大型模型具有更快的推理速度，同時保持較高的性能

768維嵌入空間

提供足夠豐富的語義表示空間

512標記上下文長度

支持處理較長的文本片段

模型能力

語義文本相似度計算

句子嵌入生成

文本特徵提取

複述識別

自然語言推理

使用案例

信息檢索

文檔相似度搜索

用於構建基於語義的文檔檢索系統

在新聞檢索任務上NDCG@10達到0.651

文本分類

情感分析

用於俄語評論的情感分類

準確率達到0.599

問答系統

問答重排序

改進問答系統中答案的排序質量

MAP@10達到0.688

🚀 用於GPU上語義文本相似度（STS）的基礎Bert模型

這是一個高質量的BERT模型，用於計算俄語句子的嵌入向量。該模型基於 cointegrated/LaBSE-en-ru 構建，具有相似的上下文長度（512）、嵌入維度（768）和性能表現。

🚀 快速開始

✨ 主要特性

專為俄語句子嵌入計算設計，適用於語義文本相似度（STS）任務。
基於成熟的 cointegrated/LaBSE-en-ru 模型，具備相似的性能指標。

📦 安裝指南

在使用模型前，你需要安裝必要的庫：

pip install transformers sentencepiece

💻 使用示例

基礎用法

使用 transformers 庫調用模型：

# pip install transformers sentencepiece
import torch
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("sergeyzh/LaBSE-ru-sts")
model = AutoModel.from_pretrained("sergeyzh/LaBSE-ru-sts")
# model.cuda()  # uncomment it if you have a GPU

def embed_bert_cls(text, model, tokenizer):
    t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')
    with torch.no_grad():
        model_output = model(**{k: v.to(model.device) for k, v in t.items()})
    embeddings = model_output.last_hidden_state[:, 0, :]
    embeddings = torch.nn.functional.normalize(embeddings)
    return embeddings[0].cpu().numpy()

print(embed_bert_cls('привет мир', model, tokenizer).shape)
# (768,)

高級用法

使用 sentence_transformers 庫調用模型：

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('sergeyzh/LaBSE-ru-sts')

sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(util.dot_score(embeddings, embeddings))

📚 詳細文檔

指標評估

模型在 encodechka 基準測試中的評估結果如下：

模型	STS	PI	NLI	SA	TI
intfloat/multilingual-e5-large	0.862	0.727	0.473	0.810	0.979
sergeyzh/LaBSE-ru-sts	0.845	0.737	0.481	0.805	0.957
sergeyzh/rubert-mini-sts	0.815	0.723	0.477	0.791	0.949
sergeyzh/rubert-tiny-sts	0.797	0.702	0.453	0.778	0.946
Tochka-AI/ruRoPEBert-e5-base-512	0.793	0.704	0.457	0.803	0.970
cointegrated/LaBSE-en-ru	0.794	0.659	0.431	0.761	0.946
cointegrated/rubert-tiny2	0.750	0.651	0.417	0.737	0.937

任務說明：

語義文本相似度（STS）
釋義識別（PI）
自然語言推理（NLI）
情感分析（SA）
毒性識別（TI）

性能和規模

模型在 encodechka 基準測試中的性能和規模評估結果如下：

模型	CPU	GPU	大小	維度	上下文長度	詞彙量
intfloat/multilingual-e5-large	149.026	15.629	2136	1024	514	250002
sergeyzh/LaBSE-ru-sts	42.835	8.561	490	768	512	55083
sergeyzh/rubert-mini-sts	6.417	5.517	123	312	2048	83828
sergeyzh/rubert-tiny-sts	3.208	3.379	111	312	2048	83828
Tochka-AI/ruRoPEBert-e5-base-512	43.314	9.338	532	768	512	69382
cointegrated/LaBSE-en-ru	42.867	8.549	490	768	512	55083
cointegrated/rubert-tiny2	3.212	3.384	111	312	2048	83828

模型在 ruMTEB 基準測試中的評估結果如下：

模型名稱	指標	sbert_large_ mt_nlu_ru	sbert_large_ nlu_ru	LaBSE-ru-sts	LaBSE-ru-turbo	multilingual-e5-small	multilingual-e5-base	multilingual-e5-large
CEDRClassification	準確率	0.368	0.358	0.418	0.451	0.401	0.423	0.448
GeoreviewClassification	準確率	0.397	0.400	0.406	0.438	0.447	0.461	0.497
GeoreviewClusteringP2P	V-measure	0.584	0.590	0.626	0.644	0.586	0.545	0.605
HeadlineClassification	準確率	0.772	0.793	0.633	0.688	0.732	0.757	0.758
InappropriatenessClassification	準確率	0.646	0.625	0.599	0.615	0.592	0.588	0.616
KinopoiskClassification	準確率	0.503	0.495	0.496	0.521	0.500	0.509	0.566
RiaNewsRetrieval	NDCG@10	0.214	0.111	0.651	0.694	0.700	0.702	0.807
RuBQReranking	MAP@10	0.561	0.468	0.688	0.687	0.715	0.720	0.756
RuBQRetrieval	NDCG@10	0.298	0.124	0.622	0.657	0.685	0.696	0.741
RuReviewsClassification	準確率	0.589	0.583	0.599	0.632	0.612	0.630	0.653
RuSTSBenchmarkSTS	皮爾遜相關係數	0.712	0.588	0.788	0.822	0.781	0.796	0.831
RuSciBenchGRNTIClassification	準確率	0.542	0.539	0.529	0.569	0.550	0.563	0.582
RuSciBenchGRNTIClusteringP2P	V-measure	0.522	0.504	0.486	0.517	0.511	0.516	0.520
RuSciBenchOECDClassification	準確率	0.438	0.430	0.406	0.440	0.427	0.423	0.445
RuSciBenchOECDClusteringP2P	V-measure	0.473	0.464	0.426	0.452	0.443	0.448	0.450
SensitiveTopicsClassification	準確率	0.285	0.280	0.262	0.272	0.228	0.234	0.257
TERRaClassification	平均精度	0.520	0.502	0.587	0.585	0.551	0.550	0.584
Classification	準確率	0.554	0.552	0.524	0.558	0.551	0.561	0.588
Clustering	V-measure	0.526	0.519	0.513	0.538	0.513	0.503	0.525
MultiLabelClassification	準確率	0.326	0.319	0.340	0.361	0.314	0.329	0.353
PairClassification	平均精度	0.520	0.502	0.587	0.585	0.551	0.550	0.584
Reranking	MAP@10	0.561	0.468	0.688	0.687	0.715	0.720	0.756
Retrieval	NDCG@10	0.256	0.118	0.637	0.675	0.697	0.699	0.774
STS	皮爾遜相關係數	0.712	0.588	0.788	0.822	0.781	0.796	0.831
Average	平均值	0.494	0.438	0.582	0.604	0.588	0.594	0.630