rubert-tiny-turbo Open-Source Russian Model - Free for Feature Extraction and Sentence Transformation

Rubert Tiny Turbo

Developed by sergeyzh

A fine-tuned Russian small sentence similarity model based on cointegrated/rubert-tiny2, suitable for feature extraction and sentence transformation tasks

Text Embedding

Transformers

OtherOpen Source License:MIT #Russian sentence similarity #Mini pre-trained model #Legal document retrieval

Downloads 93.76k

Release Time : 6/21/2024

Model Overview

This is a lightweight Russian sentence embedding model, specifically optimized for sentence similarity calculation tasks. Fine-tuned based on the rubert-tiny2 architecture, it provides efficient semantic representation capabilities for Russian text processing.

Model Features

Lightweight and efficient

Optimized based on the tiny architecture, reducing computational resource requirements while maintaining performance

Russian language optimization

Specially trained and optimized for Russian text

Sentence embedding

Capable of converting sentences into high-quality semantic vector representations

Model Capabilities

Sentence similarity calculation

Semantic search

Text feature extraction

Russian text processing

Use Cases

Information retrieval

Legal document retrieval

Searching for relevant clauses and cases in legal document libraries

Achieved an NDCG@10 score of 13.624 on the AILAStatutes dataset

News similarity matching

Finding similar news reports

Trained on Gazeta and Lenta-ru datasets

Question answering systems

Question-answer pair matching

Matching questions with the most relevant answers in QA systems

Achieved an MRR score of 3.845 on the ARCChallenge dataset

🚀 sergeyzh/rubert-tiny-turbo

This is a model for sentence similarity tasks, trained on Russian datasets and based on the cointegrated/rubert-tiny2 base model. It provides various performance metrics on the MTEB dataset.

📚 Documentation

General Information

Property	Details
Pipeline Tag	Sentence Similarity
Tags	Russian, Pretraining, Embeddings, Tiny, Feature Extraction, Sentence Similarity, Sentence Transformers, Transformers, MTEB
Datasets	IlyaGusev/gazeta, zloelias/lenta-ru
License	MIT
Base Model	cointegrated/rubert-tiny2

Model Index

Model Name: sergeyzh/rubert-tiny-turbo

Results on MTEB AILACasedocs (default)

Metric	Value
main_score	7.432999999999999
map_at_1	0.604
map_at_10	3.8989999999999996
map_at_100	7.89
map_at_1000	8.417
map_at_20	5.007000000000001
map_at_3	2.688
map_at_5	3.0380000000000003
mrr_at_1	6.0
mrr_at_10	11.799999999999999
mrr_at_100	14.417998426795965
mrr_at_1000	14.474056627618499
mrr_at_20	13.017532467532467
mrr_at_3	10.333333333333334
mrr_at_5	10.733333333333333
nauc_map_at_1000_diff1	-18.649405381116548
nauc_map_at_1000_max	53.92467833877199
nauc_map_at_1000_std	-37.567628121407296
nauc_map_at_100_diff1	-19.053926237591206
nauc_map_at_100_max	53.442907236002725
nauc_map_at_100_std	-37.310817568902884
nauc_map_at_10_diff1	-13.464050841785403
nauc_map_at_10_max	48.093886298979946
nauc_map_at_10_std	-34.85388157835729
nauc_map_at_1_diff1	-13.741863044507388
nauc_map_at_1_max	88.80266056441289
nauc_map_at_1_std	-52.44805080502242
nauc_map_at_20_diff1	-14.561491138058782
nauc_map_at_20_max	48.97477701904
nauc_map_at_20_std	-31.218577996781537
nauc_map_at_3_diff1	-15.370170931276068
nauc_map_at_3_max	53.443631887225486
nauc_map_at_3_std	-40.92344513873499
nauc_map_at_5_diff1	-12.899827975508286
nauc_map_at_5_max	56.55724779187716
nauc_map_at_5_std	-38.50107328981899
nauc_mrr_at_1000_diff1	-20.480388426956775
nauc_mrr_at_1000_max	59.34434186773745
nauc_mrr_at_1000_std	-38.78219708358511
nauc_mrr_at_100_diff1	-20.733217227513638
nauc_mrr_at_100_max	59.338571965753026
nauc_mrr_at_100_std	-38.905241386083524
nauc_mrr_at_10_diff1	-23.191503817950903
nauc_mrr_at_10_max	59.40585262343663
nauc_mrr_at_10_std	-39.558082853802894
nauc_mrr_at_1_diff1	-18.978624452195685
nauc_mrr_at_1_max	88.73088274751811
nauc_mrr_at_1_std	-52.46400143099903
nauc_mrr_at_20_diff1	-20.110327257289537
nauc_mrr_at_20_max	57.24590011894607
nauc_mrr_at_20_std	-36.76057923211494
nauc_mrr_at_3_diff1	-20.292924276357084
nauc_mrr_at_3_max	62.92624417852826
nauc_mrr_at_3_std	-42.31284612573441
nauc_mrr_at_5_diff1	-22.088780368608298
nauc_mrr_at_5_max	61.62928734634482
nauc_mrr_at_5_std	-38.47155384792127
nauc_ndcg_at_1000_diff1	-21.96644342707332
nauc_ndcg_at_1000_max	54.04115629470727
nauc_ndcg_at_1000_std	-38.60954619686922
nauc_ndcg_at_100_diff1	-28.508933576201116
nauc_ndcg_at_100_max	53.62925134001747
nauc_ndcg_at_100_std	-41.66742945815351
nauc_ndcg_at_10_diff1	-19.22314681419278
nauc_ndcg_at_10_max	44.88305374351992
nauc_ndcg_at_10_std	-32.86086137849654
nauc_ndcg_at_1_diff1	-18.978624452195685
nauc_ndcg_at_1_max	88.73088274751811
nauc_ndcg_at_1_std	-52.46400143099903
nauc_ndcg_at_20_diff1	-14.037813797353552
nauc_ndcg_at_20_max	43.01748289241327
nauc_ndcg_at_20_std	-23.548077008049674
nauc_ndcg_at_3_diff1	-19.9659903984576
nauc_ndcg_at_3_max	64.99817864354436
nauc_ndcg_at_3_std	-45.246163550721796
nauc_ndcg_at_5_diff1	-20.389688306447788
nauc_ndcg_at_5_max	61.370293646369454
nauc_ndcg_at_5_std	-39.9134710853091
nauc_precision_at_1000_diff1	-26.69952361901621
nauc_precision_at_1000_max	46.40932456102013
nauc_precision_at_1000_std	-37.38094677778857
nauc_precision_at_100_diff1	-29.692268260058146
nauc_precision_at_100_max	49.265913223173584
nauc_precision_at_100_std	-41.45888232985447
nauc_precision_at_10_diff1	-20.974428245377048
nauc_precision_at_10_max	53.924262890679564
nauc_precision_at_10_std	-35.74456192649867
nauc_precision_at_1_diff1	-18.978624452195685
nauc_precision_at_1_max	88.73088274751811
nauc_precision_at_1_std	-52.46400143099903
nauc_precision_at_20_diff1	-23.03848763224966
nauc_precision_at_20_max	51.19001778609016
nauc_precision_at_20_std	-33.25265416139501
nauc_precision_at_3_diff1	-19.497362250879267
nauc_precision_at_3_max	64.71277842907384
nauc_precision_at_3_std	-44.512016412661204
nauc_precision_at_5_diff1	-18.918918918918912
nauc_precision_at_5_max	64.89456489456494
nauc_precision_at_5_std	-37.37960880818024
nauc_recall_at_1000_diff1	.nan
nauc_recall_at_1000_max	.nan
nauc_recall_at_1000_std	.nan
nauc_recall_at_100_diff1	-44.51937508102329
nauc_recall_at_100_max	25.75429602376942
nauc_recall_at_100_std	-33.30783195688129
nauc_recall_at_10_diff1	-18.776401920240275
nauc_recall_at_10_max	23.00791681188562
nauc_recall_at_10_std	-21.576198296256532
nauc_recall_at_1_diff1	-13.741863044507388
nauc_recall_at_1_max	88.80266056441289
nauc_recall_at_1_std	-52.44805080502242
nauc_recall_at_20_diff1	-3.8724115673803343
nauc_recall_at_20_max	21.50124528790692
nauc_recall_at_20_std	-1.6719812367243132
nauc_recall_at_3_diff1	-20.21079163108882
nauc_recall_at_3_max	42.152167178196684
nauc_recall_at_3_std	-36.258746145318526
nauc_recall_at_5_diff1	-22.10269915203519
nauc_recall_at_5_max	43.30767031613079
nauc_recall_at_5_std	-27.398704255640478
ndcg_at_1	6.0
ndcg_at_10	7.432999999999999
ndcg_at_100	26.354
ndcg_at_1000	30.558000000000003
ndcg_at_20	11.143
ndcg_at_3	7.979
ndcg_at_5	6.81
precision_at_1	6.0
precision_at_10	4.2
precision_at_100	3.1199999999999997
precision_at_1000	0.38999999999999996
precision_at_20	4.2
precision_at_3	8.0
precision_at_5	5.6000000000000005
recall_at_1	0.604
recall_at_10	9.678
recall_at_100	78.645
recall_at_1000	100.0
recall_at_20	20.79
recall_at_3	4.261
recall_at_5	5.011

Results on MTEB AILAStatutes (default)

Metric	Value
main_score	13.624
map_at_1	1.7999999999999998
map_at_10	6.41
map_at_100	11.995000000000001
map_at_1000	11.995000000000001
map_at_20	7.33
map_at_3	4.089
map_at_5	5.192
mrr_at_1	8.0
mrr_at_10	20.935714285714287
mrr_at_100	23.02755974294914
mrr_at_1000	23.02755974294914
mrr_at_20	22.1038126476207
mrr_at_3	15.333333333333332
mrr_at_5	19.533333333333335
nauc_map_at_1000_diff1	5.278882422253006
nauc_map_at_1000_max	3.7333073133608896
nauc_map_at_1000_std	-4.5637189871999775
nauc_map_at_100_diff1	5.278882422253006
nauc_map_at_100_max	3.7333073133608896
nauc_map_at_100_std	-4.5637189871999775
nauc_map_at_10_diff1	8.570212263630141
nauc_map_at_10_max	-6.6489980060039295
nauc_map_at_10_std	-12.162352126704402
nauc_map_at_1_diff1	7.476969859583216
nauc_map_at_1_max	-26.629997316876853
nauc_map_at_1_std	-23.469874489461308
nauc_map_at_20_diff1	7.222345063366828
nauc_map_at_20_max	-2.5103197323267223
nauc_map_at_20_std	-10.997015623527455
nauc_map_at_3_diff1	14.924734426277178
nauc_map_at_3_max	-11.92937537932614
nauc_map_at_3_std	-4.9319666083973255
nauc_map_at_5_diff1	8.080773945621521
nauc_map_at_5_max	-3.8175754142607836
nauc_map_at_5_std	-4.541639774033337
nauc_mrr_at_1000_diff1	2.4122089783406646
nauc_mrr_at_1000_max	-15.876004562207497
nauc_mrr_at_1000_std	-12.985028057822372
nauc_mrr_at_100_diff1	2.4122089783406646
nauc_mrr_at_100_max	-15.876004562207497
nauc_mrr_at_100_std	-12.985028057822372
nauc_mrr_at_10_diff1	0.2857311186354727
nauc_mrr_at_10_max	-14.63697545190418
nauc_mrr_at_10_std	-12.056570964159198
nauc_mrr_at_1_diff1	6.868795277703242
nauc_mrr_at_1_max	-24.845720418567222
nauc_mrr_at_1_std	-20.686879527770337
nauc_mrr_at_20_diff1	1.8452171261188577
nauc_mrr_at_20_max	-15.538023663956924
nauc_mrr_at_20_std	-13.690749771450164
nauc_mrr_at_3_diff1	10.557261573838256
nauc_mrr_at_3_max	-20.946427791765498
nauc_mrr_at_3_std	-10.389166217927242
nauc_mrr_at_5_diff1	8.148148148148148
nauc_mrr_at_5_max	-13.148148148148148
nauc_mrr_at_5_std	-4.999999999999999
nauc_ndcg_at_1000_diff1	2.4122089783406646
nauc_ndcg_at_1000_max	-15.876004562207497
nauc_ndcg_at_1000_std	-12.985028057822372
nauc_ndcg_at_100_diff1	2.4122089783406646
nauc_ndcg_at_100_max	-15.876004562207497
nauc_ndcg_at_100_std	-12.985028057822372
nauc_ndcg_at_10_diff1	0.2857311186354727
nauc_ndcg_at_10_max	-14.63697545190418
nauc_ndcg_at_10_std	-12.056570964159198
nauc_ndcg_at_1_diff1	6.868795277703242
nauc_ndcg_at_1_max	-24.845720418567222
nauc_ndcg_at_1_std	-20.686879527770337
nauc_ndcg_at_20_diff1	1.8452171261188577
nauc_ndcg_at_20_max	-15.538023663956924
nauc_ndcg_at_20_std	-13.690749771450164
nauc_ndcg_at_3_diff1	10.557261573838256
nauc_ndcg_at_3_max	-20.946427791765498
nauc_ndcg_at_3_std	-10.389166217927242
nauc_ndcg_at_5_diff1	8.148148148148148
nauc_ndcg_at_5_max	-13.148148148148148
nauc_ndcg_at_5_std	-4.999999999999999
nauc_precision_at_1000_diff1	2.4122089783406646
nauc_precision_at_1000_max	-15.876004562207497
nauc_precision_at_1000_std	-12.985028057822372
nauc_precision_at_100_diff1	2.4122089783406646
nauc_precision_at_100_max	-15.876004562207497
nauc_precision_at_100_std	-12.985028057822372
nauc_precision_at_10_diff1	0.2857311186354727
nauc_precision_at_10_max	-14.63697545190418
nauc_precision_at_10_std	-12.056570964159198
nauc_precision_at_1_diff1	6.868795277703242
nauc_precision_at_1_max	-24.845720418567222
nauc_precision_at_1_std	-20.686879527770337
nauc_precision_at_20_diff1	1.8452171261188577
nauc_precision_at_20_max	-15.538023663956924
nauc_precision_at_20_std	-13.690749771450164
nauc_precision_at_3_diff1	10.557261573838256
nauc_precision_at_3_max	-20.946427791765498
nauc_precision_at_3_std	-10.389166217927242
nauc_precision_at_5_diff1	8.148148148148148
nauc_precision_at_5_max	-13.148148148148148
nauc_precision_at_5_std	-4.999999999999999
nauc_recall_at_1000_diff1	.nan
nauc_recall_at_1000_max	.nan
nauc_recall_at_1000_std	.nan
nauc_recall_at_100_diff1	-22.259687540511645
nauc_recall_at_100_max	12.87714801188471
nauc_recall_at_100_std	-16.653915978440645
nauc_recall_at_10_diff1	-9.388200960120137
nauc_recall_at_10_max	11.50395840594281
nauc_recall_at_10_std	-10.788979282970666
nauc_recall_at_1_diff1	3.434397638851621
nauc_recall_at_1_max	-12.422860209283611
nauc_recall_at_1_std	-8.98846257043201
nauc_recall_at_20_diff1	-1.936205783644667
nauc_recall_at_20_max	10.750622608973035
nauc_recall_at_20_std	-6.848413795109831
nauc_recall_at_3_diff1	-10.10539581554441
nauc_recall_at_3_max	21.07608358909834
nauc_recall_at_3_std	-15.580891292279175
nauc_recall_at_5_diff1	-11.054349076017595
nauc_recall_at_5_max	21.653835158065395
nauc_recall_at_5_std	-13.3297425790239
ndcg_at_1	8.0
ndcg_at_10	13.624
ndcg_at_100	28.048
ndcg_at_1000	30.558000000000003
ndcg_at_20	16.643
ndcg_at_3	10.979
ndcg_at_5	8.81
precision_at_1	8.0
precision_at_10	6.2
precision_at_100	3.1199999999999997
precision_at_1000	0.38999999999999996
precision_at_20	6.2
precision_at_3	10.0
precision_at_5	7.6000000000000005
recall_at_1	1.7999999999999998
recall_at_10	19.678
recall_at_100	78.645
recall_at_1000	100.0
recall_at_20	40.79
recall_at_3	4.261
recall_at_5	5.011

📄 License

This project is licensed under the MIT license.

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご