Ruropebert E5 Base 512 Allru Authorship
R
Ruropebert E5 Base 512 Allru Authorship
Developed by asaakyan
Russian RoPE embedding model based on BERT architecture, optimized for sentence similarity and feature extraction tasks
Downloads 37
Release Time : 12/5/2024
Model Overview
This model is a Russian pre-trained model based on the BERT architecture, employing RoPE (Rotary Position Embedding) positional encoding, primarily used for sentence similarity calculation and feature extraction tasks. The model supports a maximum sequence length of 512 and is trained using a contrastive loss function.
Model Features
RoPE Positional Encoding
Utilizes Rotary Position Embedding technology to better handle long sequences and positional information
Contrastive Loss Training
Optimized with contrastive loss function, particularly suitable for sentence similarity tasks
Large Training Dataset
Trained on 2.46 million Russian sentence pairs, with strong semantic understanding capabilities
Model Capabilities
Sentence embedding generation
Semantic similarity calculation
Text feature extraction
Sentence-level semantic understanding
Use Cases
Information Retrieval
Similar document search
Find semantically similar documents or paragraphs based on input sentences
Improves retrieval relevance and accuracy
Intelligent Customer Service
Question matching
Match user questions with similar questions in the knowledge base
Improves the accuracy of automated Q&A systems
Content Recommendation
Related content recommendation
Recommend semantically similar content based on user browsing history
Enhances user engagement and satisfaction
🚀 Sentence Transformers Model
This project is based on the Tochka-AI/ruRoPEBert-e5-base-512
model, using ContrastiveLoss
for training. It can be used for sentence similarity calculation, feature extraction, etc.
📦 Model Information
Property | Details |
---|---|
Model Type | Sentence Transformers |
Base Model | Tochka-AI/ruRoPEBert-e5-base-512 |
Dataset Size | 2465773 |
Loss | ContrastiveLoss |
💻 Usage Examples
Basic Usage
You can use the following widget to test the model's performance:
{
"tags": [
"sentence-transformers",
"sentence-similarity",
"feature-extraction",
"generated_from_trainer"
],
"base_model": "Tochka-AI/ruRoPEBert-e5-base-512",
"widget": [
{
"source_sentence": "Вообще-то, цветущая весна здесь началась ещё в начале февраля, но мне не хотелось дразнить людей теплом слишком задолго до окончания зимы. А вот сейчас - самое время!\n\nВсе фотографии сделаны мной в городском парке или недалеко от города. Проводить здесь зимние месяцы - одно удовольствие! Очень комфортная погода, много зелени, а сейчас и цветов - любуйтесь сами :3\n\n<PERSON>. Ну ведь красавица!\n\nЯ уже почти месяц жду, когда зацветёт всё дерево, но создаётся впечатление, будто снизу раскрывшиеся бутоны кто-то обрывает - ещё вчера был, а сегодня нет. Возможно, они просто опадают, сегодня я как раз подобрала пару штучек.\n\nА этот кустарник цвёл всю зиму. Таких жёлтых кустарников тут несколько видов, есть и те, которые вкусно пахнут.\n\nА тут я специально ради вас нашла название \- Красный Хеномелес! Или просто японская айва. Я как-то привыкла к белым и розовым цветочкам на деревьях, а такой насыщенный красный приятно удивил.\n\nА это цветёт <PERSON>, мне в комментариях подсказали =)\n\nИнтересно, что до сих пор осталось немножко осенних листьев (а в декабре я успела собрать очень красочный гербарий). Такой вот осенне-весенний контраст.\n\nЭто жасмин. Кажется. Ну, я краем уха слышала, как тётенька-экскурсовод рассказывала.\n\nА вот это точно знаю - цикломены лесные. Одни из самых ранних цветочков, застилают лесные поляны - очень мило, с начала февраля цветут.\n\nПодснежники цвели вместе с цикломенами в феврале.\n\nСкоро у нас распустится <PERSON>. Жду-жду *_*\n\nНу и, конечно же, <PERSON>! Если встать в правильном месте и поймать нужный ветер, можно услышать прекрасный аромат =)\n\nЕсли у вас возникает мысль \"А не махнуть ли мне в Сочи\" - решайтесь! Здесь не только пустынные пляжи созерцательно море, но и очень приятно гулять среди зелени и цветов.",
"sentences": [
"Урал радует разнообразием. В лёгкой пешей прогулке между деревеньками и дачами можно увидеть...\n\nВыработанный мраморный карьер.\n\nКак после хорошего дождя тропинки становятся белыми.\n\nКарьер, как это часто бывает, заполнен водой и служит местом отдыха\n\nС определённых ракурсов вода приобретает очень красивый оттенок.\n\nНа такой почве очень хорошо растёт облепиха.\n\nА дорога под ногами блестит и переливается бликами от солнца, но этого я вам не покажу.\n\nВ нескольких дестяках метров от карьера есть небольшой водопад.\n\nМаленький, но симпатичный.\n\nИ даже ущелье! Или каньон?\n\nНеподалёку располагается ни много ни мало памятник природы - базальтовые скалы.\n\nПохоже на поджаренную щепку, правда? Только гораааздо больше. И скала.\n\nВы уже заметили по теням, какой тут стройный хвойный лес?\n\nА ещё тут растут люпины, прямо как в Зеландиях и Исландиях. [Помимо них ещё красиво цветёт Иван-чай в окрестностях.]\n\nНу и завершим прогулку красивым закатом, хотя они в любом месте красивы - за это люблю свою планету.\n\nКонечно, ещё есть река, поля, грибы, лесные озёра и что-то, до чего мы ещё не прогулялись. Доехать можно хоть на электричке - 47 или 49 км. В окрестных деревнях тоже есть на что посмотреть.\n\nКрасота ближе, чем вы думаете ;)",
"Может люди работают до поздна? Приходят в 22, что им теперь дела домашние не делать? Явно косяк со слышимостью. Вам мешают - сразу пара долбоебов. У нас раньше такая херня была - внизу соседи слышали как мы ходим и даже как компьютерное кресло двигается. Тоже истерики устраивали, мой к ним содил поговорить, позвонил мне попросил походить. Да, говорит слышно сильно. А знаете в чем прикол? В том что я не топаю. Я хожу тихо. Тут именно вибрация. Поменяли кресло - специально когда покупали катали чтобы вообще не было слышно, постелили ковёр. Вроде перестали на нас жаловаться. С той квартиры мы съехали, сейчас там живет мама молодого человека моего. Так на нее они гонят за то что стиралку ночью включает! На кухне. Стиралка ее из тех что идёт на взлёт. При нас не жаловались. Но видимо доебаться надо. Может и вы такой? Может вам надо доебаться?",
"\"Позиция нажатого элемента ListView и её получение в запущенном активити\nВсем добрый день.\nПосле нажатия на элемент списка listview, нужно передать его позицию (номер элемента списка) в другое активити. Использую position, которая передается в onListItemClick. Но в другое активити почему то передается null.\nПомогите разобраться))\n[code]\n public class MainActivity extends ListActivity {\n @Override\n protected void onListItemClick(ListView l, View v, int position, long id) {\n super.onListItemClick(l, v, position, id);\n Intent intent = new Intent(getApplicationContext(), AfterClickActivity.class);\n intent.putExtra(\"position\",position);\n startActivity(intent);\n }\n @Override\n protected void onCreate(Bundle savedInstanceState) {\n Integer[] array = new Integer[100];\n for (int i = 0; i <100 ; i++) {\n array[i] = i;\n }\n super.onCreate(savedInstanceState);\n ArrayAdapter adapter = new ArrayAdapter(getApplicationContext(),R.layout.list_item,R.id.tvText,array);\n setListAdapter(adapter);\n[/code]\n}\n[code]\n public class AfterClickActivity extends ActionBarActivity {\n @Override\n protected void onCreate(Bundle savedInstanceState) {\n super.onCreate(savedInstanceState);\n setContentView(R.layout.activity_after_click);\n String position = getIntent().getStringExtra(\"position\");\n TextView view = (TextView)findViewById(R.id.tvView1);\n view.setText(String.valueOf(position));\n }\n[/code]"
]
},
{
"source_sentence": "Здравствуйте,попал в не приятную ситуацию. В октябре на МКАД произошло мелкое ДТП я на грузовой машине легонько притер <PERSON> сам виноват,не соблюдал дистанцию. За рулём девушка,поговорили оформили евро протокол и разъехались. Протокол в страховую компанию надо было предоставить в течение пяти дней. Грузовая машина оформлена на предприятие где я работаю. Через день с механиком поехали в страховую, а там висит объявление что прием заявлений и протоколов временно приостановлен. Сколько это \"временно \"продлилось. Не известно. Сегодня пришло письмо из Росгосстраха ,о том что я вовремя не предоставил соответствующие документы и выплата по ремонту 18800к возлагается на меня. В страховую больше не приезжал. Как быть?",
"sentences": [
"Кстати ole72ole я писал уже выше насчёт книги \"Пластичность мозга\", там в самой первой главе говорится о женщине которая всё время падала и о методах которыми её смогли восстановить. Хорошо бы показать эту книгу его родственникам, чтобы в свою очередь они прочитали и рассказали о методах лечащему врачу. Вот начало этой главы, мне кажется или у вашего сопалатника похожая ситуация только чуть всё иначе? Могу скинуть если напишешь свою почту эту книгу, т.к. на пикабу я не нашёл Личных сообщений, а в свободном доступе (бесплатно) книгу очень тяжело найти.\n\n<PERSON> постоянно кажется, что она падает. И из-за этого непреходящего ощущения она\n\nдействительно не может устоять на ногах.\n\nКогда <PERSON>, не имея точки опоры, поднимается с места, в первые мгновения она выглядит так,\n\nсловно стоит на краю пропасти, в которую вот-вот упадет. Сначала у нее начинает дрожать и\n\nсклоняться на одну сторону голова, и <PERSON> вытягивает руки, пытаясь зафиксировать свое положение.\n\nПосле этого ее тело принимается хаотично двигаться вперед и назад, и тогда <PERSON> напоминает\n\nчеловека, идущего по туго натянутому канату в тот ужасный момент, когда канатоходец начинает\n\nтерять равновесие. При этом вы видите, что <PERSON>, на самом деле, стоит на твердой, устойчивой\n\nповерхности (на полу, на земле), широко расставив ноги. Создается впечатление, что она боится не столько падения, сколько того, что ее толкнут.",
"Семья из Екатеринбурга более 10 лет пытается добиться восстановления вентиляции в квартире\n\n<PERSON>:\n\nМесто действия: мск, дом 24 этажа. Я на 9-м. Стал замечать, что нет тяги в вентиляции. Пришел в диспетчерскую УК (благо два шага от подъезда), написал заявление на проверку/прочистку.\n\nФабула:\n\nВозвращаюсь часов в 8 вечера, в холле подъезда стихийный митинг из человек 7, что мол УК совсем охерели и портят имущество. Вслушиваясь в монолог истерящей дамочки проясняю обстоятельства: разбит холодильник.\n\nДалее подробности от УК.\n\nУК приняв заявку, отправляет работника на крышу проверить вентканал, (короб в квартире ппц толстый: где то 120*50 см по внешним габаритам, и расположен там, где многие ввиду нестандартной планировки, хотели бы установить холодильник) решили прочистить канал привязав обычную 16кг гирю советского производства к тросу начали проход шахты. На высоте примерно 12-11 этажа нашли \"засор\" и начали прочистку, постепенно увеличивая высоту подъёма грузика... Уж не знаю на какую высоту подняли этот грузик, но он прошел \"засор\" в виде холодильника до середины морозилки.\n\nКак итог за самовольную врезку в вент канал \"пострадавшей\" был влуплен штраф и предписание устранить изменения.\n\nЕдинственное что частично оправдывает \"пострадавшую\" - она сделала обвод вокруг врезанного холодильника из венттрубы 110мм*50мм квадратного сечения, что было явно недостаточно для тяги в таком стояке.",
"Космическое производство кристаллов для лазеров\n\nКлючевой вопрос космического производства стоит так. Что в космосе можно делать такого, чтобы оно 1) отбивало стоимость вывода на орбиту и возвращения на Землю груза и 2) оно было массовым, чтобы рынок был достаточно большим?\n\nКогда начинают говорить о 3D-печати живой ткани - то, по моим впечатлениям, говорят об этом от отчаяния. Да, с научной точки зрения это очень интересно. Но до того, чтобы что-то такое напечатанное пересаживать живому человеку - мягко говоря ну вот совсем очень далеко.\n\nДа, можно печатать ткани нескольких органов на одной площадке, связывать их друг с другом, организовывать обмен веществ, и затем смотреть как какое-нибудь новое лекарство влияет на \"экосистему\" тканей (а не на каждый вид ткани в отдельности). Но это все штучный товар, бизнес на этом не построить.\n\nЧто-то более близкое к реальной экономике сделала летом корпорация Redwire.\n\nRedwire вырастила на орбите на борту МКС двухграммовый кристалл дигидрофосфата калия (их используют для создания мощных лазеров) и даже продала его - Университету штата Огайо. Компания заявляет, что это первая в истории сделка с товарами, произведенными в космосе. Вот этот кристалл:\n\nКристалл, выращенный Redwire на МКС\n\nПервые попытки выращивания кристаллов на орбите были предприняты в 1970-х. На фото слева - \"земные\" кристаллы, а справа - кристаллы, выращенные в космосе в условиях микрогравитации (см. фото ниже).\n\nПрофессор <PERSON> приобрел образец, выращенный Redwire за 4000 долларов, что эквивалентно 2 миллионам долларов за килограмм.\n\nСейчас сотрудники университетского центра электронной микроскопии и анализа изучают образец - режут его на тонкие сегменты и изучат его свойства.\n\nRedwire ожидает, что анализ покажет, что выращивание кристалла в условиях микрогравитации привело к меньшему количеству дефектов и получению более качественного продукта.\n\nhttps://t.me/IngeniumNotes/622"
]
},
{
"source_sentence": "Феодосия, 25 декабря. Крыминформ. В Феодосии 67-летний <PERSON> объявил голодовку и грозится покончить жизнь самоубийством в связи с тем, что суд не удовлетворил иск о подтверждении факта его постоянного проживания на территории Крыма, что необходимо для приобретения российского гражданства. Он объявил об этом сегодня, выйдя к зданию городского суда с табличкой \"Голодовка\".\n\n\"Суд 22 декабря вынес решение, которым не подтверждает факт моего постоянного проживания в Феодосии. Я прописан в Украине, но живу в городе по одному и тому же адресу с 2004 года, работал на заводе, принимаю активное участие в жизни города. Пенсию мне перестали выплачивать, жить не на что, деньги занимаю у соседей\", - сообщил <PERSON>. По его словам, на суде давали показания его соседи, а сам он представил подтверждающие документы.\n\nСегодня, как сообщил мужчина, он получил ответ председателя суда <PERSON>, в котором ему предлагают обратиться в апелляционный суд. Однако, по словам <PERSON>, у него нет денег даже на оплату госпошлины. \"Мне рекомендовали обратиться в апелляционный суд, но денег на это"
}
]
}
Jina Embeddings V3
Jina Embeddings V3 is a multilingual sentence embedding model supporting over 100 languages, specializing in sentence similarity and feature extraction tasks.
Text Embedding
Transformers Supports Multiple Languages

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
A cross-encoder model trained on the MS Marco passage ranking task for query-passage relevance scoring in information retrieval
Text Embedding English
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
A sparse retrieval model based on distillation technology, optimized for OpenSearch, supporting inference-free document encoding with improved search relevance and efficiency over V1
Text Embedding
Transformers English

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
A biomedical entity representation model based on PubMedBERT, optimized for semantic relation capture through self-aligned pre-training
Text Embedding English
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large is a powerful sentence transformer model focused on sentence similarity and text embedding tasks, excelling in multiple benchmark tests.
Text Embedding English
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 is an English sentence transformer model focused on sentence similarity tasks, excelling in multiple text embedding benchmarks.
Text Embedding
Transformers Supports Multiple Languages

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base is a multilingual sentence embedding model supporting over 50 languages, suitable for tasks like sentence similarity calculation.
Text Embedding
Transformers Supports Multiple Languages

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT is a chemical language model designed to achieve fully machine-driven ultrafast polymer informatics. It maps PSMILES strings into 600-dimensional dense fingerprints to numerically represent polymer chemical structures.
Text Embedding
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
A sentence embedding model based on Turkish BERT, optimized for semantic similarity tasks
Text Embedding
Transformers Other

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
A text embedding model fine-tuned based on BAAI/bge-small-en-v1.5, trained with the MEDI dataset and MTEB classification task datasets, optimized for query encoding in retrieval tasks.
Text Embedding
Safetensors English
G
avsolatorio
945.68k
29
Featured Recommended AI Models