roberta-base-use-qa-theseus-bg Open-source Multilingual Model - Free Generation of Bulgarian Sentence Embedding Vectors

Roberta Base Use Qa Theseus Bg

Developed by rmihaylov

This is a multilingual Roberta model that can generate embeddings for Bulgarian sentences. Trained based on Sentence-BERT principles with Google's USE model as the teacher model.

Text Embedding

Transformers

OtherOpen Source License:MIT #Bulgarian sentence embeddings #Cross-lingual semantic matching #Progressive model compression

Downloads 15

Release Time : 4/18/2022

Model Overview

This model is used to generate embeddings for Bulgarian sentences, suitable for tasks like sentence similarity calculation. Model compression was achieved through progressive module replacement techniques.

Model Features

Multilingual support

Supports generating sentence embeddings for both Bulgarian and English

Case sensitivity

The model is case-sensitive, treating words like 'bulgarian' and 'Bulgarian' as different vocabulary

Model compression

Model compression achieved through progressive module replacement techniques

Trained on translation pairs

Trained using Bulgarian-English parallel corpus, mapping translated sentences to the same vector space

Model Capabilities

Bulgarian sentence embedding generation

English sentence embedding generation

Sentence similarity calculation

Use Cases

Information retrieval

Q&A systems

Used to find the most relevant answers to questions

Examples demonstrate how to calculate similarity between questions and candidate answers

Text matching

Similar sentence identification

Identify semantically similar sentences

🚀 ROBERTA BASE (cased) trained on private Bulgarian-English parallel data

This is a Multilingual Roberta model that can create embeddings of Bulgarian sentences.

🚀 Quick Start

This is a Multilingual Roberta model, which can be used to create embeddings for Bulgarian sentences. Drawing on the concepts from Sentence-BERT, the training is based on the principle that a translated sentence should be mapped to the same location in the vector space as the original sentence.

The teacher model is the USE model by Google.

This model is case - sensitive, meaning it differentiates between "bulgarian" and "Bulgarian". It was trained on private Bulgarian - English parallel data and then compressed via progressive module replacing.

📦 Installation

No specific installation steps are provided in the original document.

💻 Usage Examples

Basic Usage

Here is how to use this model in PyTorch:

>>> import scipy
>>> import torch
>>> from transformers import AutoModel, AutoTokenizer
>>> 
>>> model = AutoModel.from_pretrained('rmihaylov/roberta-base-use-qa-theseus-bg')
>>> tokenizer = AutoTokenizer.from_pretrained('rmihaylov/roberta-base-use-qa-theseus-bg')
>>>
>>> query = "Какви са съставките на бисквитките?"
>>> 
>>> answers = [
>>>            "Бисквитката е печена или варена храна, която обикновено е малка, плоска и сладка.",
>>>            "Бисквитките обикновено съдържат брашно, захар и някакъв вид масло или мазнини. Те могат да включват други съставки като стафиди, овес, шоколадов чипс, ядки и др.",
>>>            "В повечето англоговорящи страни, с изключение на САЩ и Канада, хрупкавите бисквитки се наричат бисквити.",
>>>            "Бисквитите Chewier понякога се наричат бисквитки дори в Обединеното кралство. Някои бисквитки могат също да бъдат назовавани според формата им, като квадратчета с дата или барове.",
>>>            "Бисквитките или бисквитите могат да се произвеждат масово във фабрики, направени в малки пекарни или домашно приготвени.",
>>>            "Вариантите за бисквити или бисквити включват сандвич бисквити, като крем крем, Jammie Dodgers, Bourbons и Oreos, с пълнеж от ружа или конфитюр и понякога потопени в шоколад или друго сладко покритие.",
>>>            "Бисквитките често се сервират с напитки като мляко, кафе или чай.",
>>>            "Фабричните бисквитки се продават в магазини за хранителни стоки, магазини за удобство и автомати.",
>>>            "Американската употреба произлиза от холандското koekje „малка торта“, което е умалително от „koek“ („торта“), което произлиза от средно холандската дума „koke“.",
>>>            "Cookie Monster е Muppet в дългогодишното детско телевизионно шоу Sesame Street, който е най-известен с ненаситния си апетит към бисквитките и известните си фрази за ядене, като „Me want cookie!“, „Me eat cookie!“ (или просто „COOKIE!“) и „Om nom nom nom“ (казано през уста, пълна с храна).",
>>>            "Домашните бисквитки обикновено се правят от тесто, оформено на малки топчета и пуснато върху лист с бисквитки. След това се пекат във фурна за 5 до 15 минути, в зависимост от рецептата. Температурата на фурната варира от 250 до 350 градуса.",
>>>            "Повечето бисквитки със среден размер, ако са направени със захар, брашно и скъсяване, ще съдържат между 100 и 200 калории.",
>>>            ]
>>> 
>>> query_embedding = model.question(**tokenizer.encode_plus(query, return_tensors='pt')).detach().numpy()[0]
>>> 
>>> corpus, corpus_embeddings = [], []
>>> for answer in answers:
>>>     value_inputs = tokenizer.encode_plus(answer, answer, return_tensors='pt')
>>>     embedding = model.answer(**value_inputs).detach().numpy()[0]
>>>     corpus.append(answer)
>>>     corpus_embeddings.append(embedding)
>>> 
>>> distances = scipy.spatial.distance.cdist([query_embedding], corpus_embeddings, "cosine")[0]
>>> 
>>> results = zip(range(len(distances)), distances)
>>> results = sorted(results, key=lambda x: x[1])
>>> 
>>> print([[corpus[idx].strip(), (1.0 - distance)] for idx, distance in results])

[['Бисквитките обикновено съдържат брашно, захар и някакъв вид масло или мазнини. Те могат да включват други съставки като стафиди, овес, шоколадов чипс, ядки и др.',
  0.5449754306536151],
 ['Фабричните бисквитки се продават в магазини за хранителни стоки, магазини за удобство и автомати.',
  0.5049509545814316],
 ['В повечето англоговорящи страни, с изключение на САЩ и Канада, хрупкавите бисквитки се наричат \u200b\u200bбисквити.',
  0.5029661338050297],
 ['Бисквитките или бисквитите могат да се произвеждат масово във фабрики, направени в малки пекарни или домашно приготвени.',
  0.4991678233218718],
 ['Вариантите за бисквити или бисквити включват сандвич бисквити, като крем крем, Jammie Dodgers, Bourbons и Oreos, с пълнеж от ружа или конфитюр и понякога потопени в шоколад или друго сладко покритие.',
  0.49050297326146386],
 ['Повечето бисквитки със среден размер, ако са направени със захар, брашно и скъсяване, ще съдържат между 100 и 200 калории.',
  0.48950875441294106],
 ['Бисквитката е печена или варена храна, която обикновено е малка, плоска и сладка.',
  0.48646309549536737],
 ['Бисквитите Chewier понякога се наричат \u200b\u200bбисквитки дори в Обединеното кралство. Някои бисквитки могат също да бъдат назовавани според формата им, като квадратчета с дата или барове.',
  0.4840599482604815],
 ['Cookie Monster е Muppet в дългогодишното детско телевизионно шоу Sesame Street, който е най-известен с ненаситния си апетит към бисквитките и известните си фрази за ядене, като „Me want cookie!“, „Me eat cookie!“ (или просто „COOKIE!“) и „Om nom nom nom“ (казано през уста, пълна с храна).',
  0.45209677893728206],
 ['Домашните бисквитки обикновено се правят от тесто, оформено на малки топчета и пуснато върху лист с бисквитки. След това се пекат във фурна за 5 до 15 минути, в зависимост от рецептата. Температурата на фурната варира от 250 до 350 градуса.',
  0.4511516464302119],
 ['Бисквитките често се сервират с напитки като мляко, кафе или чай.',
  0.42364528401677803],
 ['Американската употреба произлиза от холандското koekje „малка торта“, което е умалително от „koek“ („торта“), което произлиза от средно холандската дума „koke“.',
  0.3267314582662877]]

📚 Documentation

Model Information

Property	Details
Inference	false
Pipeline Tag	sentence - similarity
Language	bg
License	mit
Datasets	oscar, chitanka, wikipedia
Tags	torch

📄 License

The model is released under the MIT license.

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご