Labse Ru Sts
模型概述
該模型專門用於俄語語義文本相似度計算,能夠生成高質量的句子嵌入向量,適用於多種自然語言處理任務
模型特點
高質量俄語嵌入
專門針對俄語優化的句子嵌入表示,在俄語語義相似度任務上表現優異
高效計算
相比大型模型具有更快的推理速度,同時保持較高的性能
768維嵌入空間
提供足夠豐富的語義表示空間
512標記上下文長度
支持處理較長的文本片段
模型能力
語義文本相似度計算
句子嵌入生成
文本特徵提取
複述識別
自然語言推理
使用案例
信息檢索
文檔相似度搜索
用於構建基於語義的文檔檢索系統
在新聞檢索任務上NDCG@10達到0.651
文本分類
情感分析
用於俄語評論的情感分類
準確率達到0.599
問答系統
問答重排序
改進問答系統中答案的排序質量
MAP@10達到0.688
🚀 用於GPU上語義文本相似度(STS)的基礎Bert模型
這是一個高質量的BERT模型,用於計算俄語句子的嵌入向量。該模型基於 cointegrated/LaBSE-en-ru 構建,具有相似的上下文長度(512)、嵌入維度(768)和性能表現。
🚀 快速開始
✨ 主要特性
- 專為俄語句子嵌入計算設計,適用於語義文本相似度(STS)任務。
- 基於成熟的 cointegrated/LaBSE-en-ru 模型,具備相似的性能指標。
📦 安裝指南
在使用模型前,你需要安裝必要的庫:
pip install transformers sentencepiece
💻 使用示例
基礎用法
使用 transformers
庫調用模型:
# pip install transformers sentencepiece
import torch
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("sergeyzh/LaBSE-ru-sts")
model = AutoModel.from_pretrained("sergeyzh/LaBSE-ru-sts")
# model.cuda() # uncomment it if you have a GPU
def embed_bert_cls(text, model, tokenizer):
t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')
with torch.no_grad():
model_output = model(**{k: v.to(model.device) for k, v in t.items()})
embeddings = model_output.last_hidden_state[:, 0, :]
embeddings = torch.nn.functional.normalize(embeddings)
return embeddings[0].cpu().numpy()
print(embed_bert_cls('привет мир', model, tokenizer).shape)
# (768,)
高級用法
使用 sentence_transformers
庫調用模型:
from sentence_transformers import SentenceTransformer, util
model = SentenceTransformer('sergeyzh/LaBSE-ru-sts')
sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(util.dot_score(embeddings, embeddings))
📚 詳細文檔
指標評估
模型在 encodechka 基準測試中的評估結果如下:
模型 | STS | PI | NLI | SA | TI |
---|---|---|---|---|---|
intfloat/multilingual-e5-large | 0.862 | 0.727 | 0.473 | 0.810 | 0.979 |
sergeyzh/LaBSE-ru-sts | 0.845 | 0.737 | 0.481 | 0.805 | 0.957 |
sergeyzh/rubert-mini-sts | 0.815 | 0.723 | 0.477 | 0.791 | 0.949 |
sergeyzh/rubert-tiny-sts | 0.797 | 0.702 | 0.453 | 0.778 | 0.946 |
Tochka-AI/ruRoPEBert-e5-base-512 | 0.793 | 0.704 | 0.457 | 0.803 | 0.970 |
cointegrated/LaBSE-en-ru | 0.794 | 0.659 | 0.431 | 0.761 | 0.946 |
cointegrated/rubert-tiny2 | 0.750 | 0.651 | 0.417 | 0.737 | 0.937 |
任務說明:
- 語義文本相似度(STS)
- 釋義識別(PI)
- 自然語言推理(NLI)
- 情感分析(SA)
- 毒性識別(TI)
性能和規模
模型在 encodechka 基準測試中的性能和規模評估結果如下:
模型 | CPU | GPU | 大小 | 維度 | 上下文長度 | 詞彙量 |
---|---|---|---|---|---|---|
intfloat/multilingual-e5-large | 149.026 | 15.629 | 2136 | 1024 | 514 | 250002 |
sergeyzh/LaBSE-ru-sts | 42.835 | 8.561 | 490 | 768 | 512 | 55083 |
sergeyzh/rubert-mini-sts | 6.417 | 5.517 | 123 | 312 | 2048 | 83828 |
sergeyzh/rubert-tiny-sts | 3.208 | 3.379 | 111 | 312 | 2048 | 83828 |
Tochka-AI/ruRoPEBert-e5-base-512 | 43.314 | 9.338 | 532 | 768 | 512 | 69382 |
cointegrated/LaBSE-en-ru | 42.867 | 8.549 | 490 | 768 | 512 | 55083 |
cointegrated/rubert-tiny2 | 3.212 | 3.384 | 111 | 312 | 2048 | 83828 |
模型在 ruMTEB 基準測試中的評估結果如下:
模型名稱 | 指標 | sbert_large_ mt_nlu_ru | sbert_large_ nlu_ru | LaBSE-ru-sts | LaBSE-ru-turbo | multilingual-e5-small | multilingual-e5-base | multilingual-e5-large |
---|---|---|---|---|---|---|---|---|
CEDRClassification | 準確率 | 0.368 | 0.358 | 0.418 | 0.451 | 0.401 | 0.423 | 0.448 |
GeoreviewClassification | 準確率 | 0.397 | 0.400 | 0.406 | 0.438 | 0.447 | 0.461 | 0.497 |
GeoreviewClusteringP2P | V-measure | 0.584 | 0.590 | 0.626 | 0.644 | 0.586 | 0.545 | 0.605 |
HeadlineClassification | 準確率 | 0.772 | 0.793 | 0.633 | 0.688 | 0.732 | 0.757 | 0.758 |
InappropriatenessClassification | 準確率 | 0.646 | 0.625 | 0.599 | 0.615 | 0.592 | 0.588 | 0.616 |
KinopoiskClassification | 準確率 | 0.503 | 0.495 | 0.496 | 0.521 | 0.500 | 0.509 | 0.566 |
RiaNewsRetrieval | NDCG@10 | 0.214 | 0.111 | 0.651 | 0.694 | 0.700 | 0.702 | 0.807 |
RuBQReranking | MAP@10 | 0.561 | 0.468 | 0.688 | 0.687 | 0.715 | 0.720 | 0.756 |
RuBQRetrieval | NDCG@10 | 0.298 | 0.124 | 0.622 | 0.657 | 0.685 | 0.696 | 0.741 |
RuReviewsClassification | 準確率 | 0.589 | 0.583 | 0.599 | 0.632 | 0.612 | 0.630 | 0.653 |
RuSTSBenchmarkSTS | 皮爾遜相關係數 | 0.712 | 0.588 | 0.788 | 0.822 | 0.781 | 0.796 | 0.831 |
RuSciBenchGRNTIClassification | 準確率 | 0.542 | 0.539 | 0.529 | 0.569 | 0.550 | 0.563 | 0.582 |
RuSciBenchGRNTIClusteringP2P | V-measure | 0.522 | 0.504 | 0.486 | 0.517 | 0.511 | 0.516 | 0.520 |
RuSciBenchOECDClassification | 準確率 | 0.438 | 0.430 | 0.406 | 0.440 | 0.427 | 0.423 | 0.445 |
RuSciBenchOECDClusteringP2P | V-measure | 0.473 | 0.464 | 0.426 | 0.452 | 0.443 | 0.448 | 0.450 |
SensitiveTopicsClassification | 準確率 | 0.285 | 0.280 | 0.262 | 0.272 | 0.228 | 0.234 | 0.257 |
TERRaClassification | 平均精度 | 0.520 | 0.502 | 0.587 | 0.585 | 0.551 | 0.550 | 0.584 |
Classification | 準確率 | 0.554 | 0.552 | 0.524 | 0.558 | 0.551 | 0.561 | 0.588 |
Clustering | V-measure | 0.526 | 0.519 | 0.513 | 0.538 | 0.513 | 0.503 | 0.525 |
MultiLabelClassification | 準確率 | 0.326 | 0.319 | 0.340 | 0.361 | 0.314 | 0.329 | 0.353 |
PairClassification | 平均精度 | 0.520 | 0.502 | 0.587 | 0.585 | 0.551 | 0.550 | 0.584 |
Reranking | MAP@10 | 0.561 | 0.468 | 0.688 | 0.687 | 0.715 | 0.720 | 0.756 |
Retrieval | NDCG@10 | 0.256 | 0.118 | 0.637 | 0.675 | 0.697 | 0.699 | 0.774 |
STS | 皮爾遜相關係數 | 0.712 | 0.588 | 0.788 | 0.822 | 0.781 | 0.796 | 0.831 |
Average | 平均值 | 0.494 | 0.438 | 0.582 | 0.604 | 0.588 | 0.594 | 0.630 |
📄 許可證
本項目採用 MIT 許可證。
Jina Embeddings V3
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度和特徵提取任務。
文本嵌入
Transformers 支持多種語言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢-段落相關性評分
文本嵌入 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基於蒸餾技術的稀疏檢索模型,專為OpenSearch優化,支持免推理文檔編碼,在搜索相關性和效率上優於V1版本
文本嵌入
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基於PubMedBERT的生物醫學實體表徵模型,通過自對齊預訓練優化語義關係捕捉
文本嵌入 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一個強大的句子轉換器模型,專注於句子相似度和文本嵌入任務,在多個基準測試中表現出色。
文本嵌入 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一個英文句子轉換器模型,專注於句子相似度任務,在多個文本嵌入基準測試中表現優異。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一個多語言的句子嵌入模型,支持超過50種語言,適用於句子相似度計算等任務。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一個化學語言模型,旨在實現完全由機器驅動的超快聚合物信息學。它將PSMILES字符串映射為600維密集指紋,以數值形式表示聚合物化學結構。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基於土耳其語BERT的句子嵌入模型,專為語義相似度任務優化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基於BAAI/bge-small-en-v1.5模型微調的文本嵌入模型,通過MEDI數據集與MTEB分類任務數據集訓練,優化了檢索任務的查詢編碼能力。
文本嵌入
Safetensors 英語
G
avsolatorio
945.68k
29
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98