LaBSE-ru-turbo开源BERT模型 - 免费部署精准计算俄语句子嵌入

首页

Labse Ru Turbo

由 sergeyzh 开发

用于计算俄语句子嵌入的BERT模型，基于cointegrated/LaBSE-en-ru开发，优化了俄语处理性能

文本嵌入

Transformers

其他开源协议:MIT #俄语句子嵌入 #高效推理 #语义相似度计算

下载量 3,987

发布时间 : 6/27/2024

模型简介

该模型专门用于生成俄语句子的嵌入表示，适用于句子相似度计算、语义搜索等任务。在保持与原始LaBSE模型相同架构的同时，针对俄语进行了优化。

模型特点

俄语优化

专门针对俄语进行了优化，在俄语任务上表现优于原始LaBSE模型

高效推理

在CPU和GPU上都具有较高的推理速度，适合生产环境部署

多任务支持

在多种俄语NLP任务上表现良好，包括分类、聚类、检索等

模型能力

句子嵌入生成

语义相似度计算

文本分类

文本聚类

信息检索

问答系统

使用案例

语义搜索

新闻检索

用于新闻文章的语义搜索系统

在ruMTEB基准测试中NDCG@10达到0.694

问答系统

问答重排序

改善问答系统中答案的排序质量

在ruMTEB基准测试中MAP@10达到0.687

文本分类

地理评论分类

对地理相关评论进行分类

在ruMTEB基准测试中准确率达到0.438

🚀 俄语句子嵌入计算的BERT模型

这是一个用于计算俄语句子嵌入的BERT模型。该模型基于 cointegrated/LaBSE-en-ru，具有相似的上下文大小（512）、嵌入维度（768）和性能。

模型信息

属性	详情
模型类型	用于句子相似度的BERT模型
训练数据	IlyaGusev/gazeta、zloelias/lenta-ru
许可证	MIT
基础模型	cointegrated/LaBSE-en-ru

🚀 快速开始

安装

本模型使用sentence-transformers库，你可以使用以下命令安装：

pip install sentence-transformers

使用

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('sergeyzh/LaBSE-ru-turbo')

sentences = ["привет мир", "hello world", "здравствуй вселенная"]
embeddings = model.encode(sentences)
print(util.dot_score(embeddings, embeddings))

🔧 技术细节

本模型基于cointegrated/LaBSE-en-ru进行开发，在俄语句子嵌入计算任务上进行了优化。它能够快速、准确地计算句子的嵌入向量，适用于多种自然语言处理任务，如句子相似度计算、文本分类、聚类等。

📊 评估指标

在 encodechka 基准测试中的评估结果

模型	CPU	GPU	大小	平均S	平均S+W	维度
sergeyzh/LaBSE-ru-turbo	120.40	8.05	490	0.789	0.702	768
BAAI/bge-m3	523.40	22.50	2166	0.787	0.696	1024
intfloat/multilingual-e5-large	506.80	30.80	2136	0.780	0.686	1024
intfloat/multilingual-e5-base	130.61	14.39	1061	0.761	0.669	768
sergeyzh/rubert-tiny-turbo	5.51	3.25	111	0.749	0.667	312
intfloat/multilingual-e5-small	40.86	12.09	449	0.742	0.645	384
cointegrated/LaBSE-en-ru	120.40	8.05	490	0.739	0.667	768

模型	STS	PI	NLI	SA	TI	IA	IC	ICX	NE1	NE2
sergeyzh/LaBSE-ru-turbo	0.864	0.748	0.490	0.814	0.974	0.806	0.815	0.801	0.305	0.404
BAAI/bge-m3	0.864	0.749	0.510	0.819	0.973	0.792	0.809	0.783	0.240	0.422
intfloat/multilingual-e5-large	0.862	0.727	0.473	0.810	0.979	0.798	0.819	0.773	0.224	0.374
intfloat/multilingual-e5-base	0.835	0.704	0.459	0.796	0.964	0.783	0.802	0.738	0.235	0.376
sergeyzh/rubert-tiny-turbo	0.828	0.722	0.476	0.787	0.955	0.757	0.780	0.685	0.305	0.373
intfloat/multilingual-e5-small	0.822	0.714	0.457	0.758	0.957	0.761	0.779	0.691	0.234	0.275
cointegrated/LaBSE-en-ru	0.794	0.659	0.431	0.761	0.946	0.766	0.789	0.769	0.340	0.414

在 ruMTEB 基准测试中的评估结果

模型名称	指标	sbert_large_ mt_nlu_ru	sbert_large_ nlu_ru	LaBSE-ru-sts	LaBSE-ru-turbo	multilingual-e5-small	multilingual-e5-base	multilingual-e5-large
CEDRClassification	准确率	0.368	0.358	0.418	0.451	0.401	0.423	0.448
GeoreviewClassification	准确率	0.397	0.400	0.406	0.438	0.447	0.461	0.497
GeoreviewClusteringP2P	V-measure	0.584	0.590	0.626	0.644	0.586	0.545	0.605
HeadlineClassification	准确率	0.772	0.793	0.633	0.688	0.732	0.757	0.758
InappropriatenessClassification	准确率	0.646	0.625	0.599	0.615	0.592	0.588	0.616
KinopoiskClassification	准确率	0.503	0.495	0.496	0.521	0.500	0.509	0.566
RiaNewsRetrieval	NDCG@10	0.214	0.111	0.651	0.694	0.700	0.702	0.807
RuBQReranking	MAP@10	0.561	0.468	0.688	0.687	0.715	0.720	0.756
RuBQRetrieval	NDCG@10	0.298	0.124	0.622	0.657	0.685	0.696	0.741
RuReviewsClassification	准确率	0.589	0.583	0.599	0.632	0.612	0.630	0.653
RuSTSBenchmarkSTS	皮尔逊相关系数	0.712	0.588	0.788	0.822	0.781	0.796	0.831
RuSciBenchGRNTIClassification	准确率	0.542	0.539	0.529	0.569	0.550	0.563	0.582
RuSciBenchGRNTIClusteringP2P	V-measure	0.522	0.504	0.486	0.517	0.511	0.516	0.520
RuSciBenchOECDClassification	准确率	0.438	0.430	0.406	0.440	0.427	0.423	0.445
RuSciBenchOECDClusteringP2P	V-measure	0.473	0.464	0.426	0.452	0.443	0.448	0.450
SensitiveTopicsClassification	准确率	0.285	0.280	0.262	0.272	0.228	0.234	0.257
TERRaClassification	平均精度	0.520	0.502	0.587	0.585	0.551	0.550	0.584

模型名称	指标	sbert_large_ mt_nlu_ru	sbert_large_ nlu_ru	LaBSE-ru-sts	LaBSE-ru-turbo	multilingual-e5-small	multilingual-e5-base	multilingual-e5-large
Classification	准确率	0.554	0.552	0.524	0.558	0.551	0.561	0.588
Clustering	V-measure	0.526	0.519	0.513	0.538	0.513	0.503	0.525
MultiLabelClassification	准确率	0.326	0.319	0.340	0.361	0.314	0.329	0.353
PairClassification	平均精度	0.520	0.502	0.587	0.585	0.551	0.550	0.584
Reranking	MAP@10	0.561	0.468	0.688	0.687	0.715	0.720	0.756
Retrieval	NDCG@10	0.256	0.118	0.637	0.675	0.697	0.699	0.774
STS	皮尔逊相关系数	0.712	0.588	0.788	0.822	0.781	0.796	0.831
Average	平均值	0.494	0.438	0.582	0.604	0.588	0.594	0.630