roberta-base-bne Open-source Q&A Model - Supports Spanish Semantic Search and Clustering Tasks

Roberta Base Bne Finetuned Msmarco Qa Es Mnrl Mn

Developed by dariolopez

This is a Spanish-based sentence-transformers model specifically designed for question-answering scenarios, capable of mapping sentences and paragraphs into a 768-dimensional vector space, suitable for semantic search and clustering tasks.

Text Embedding

PyTorch

SpanishOpen Source License:Apache-2.0 #Spanish semantic search #QA matching optimization #Dense vector encoding

Downloads 347.38k

Release Time : 5/3/2023

Model Overview

This model is a fine-tuned version based on PlanTL-GOB-ES/roberta-base-bne, trained using the Spanish-translated MS-MARCO dataset, focusing on question-answering tasks.

Model Features

Spanish optimization

Designed specifically for Spanish, especially suitable for Spanish question-answering scenarios.

High-dimensional vector mapping

Can map sentences and paragraphs into a 768-dimensional dense vector space, supporting semantic search and clustering tasks.

Efficient training

Trained using MultipleNegativesRankingLoss, optimizing performance in question-answering scenarios.

Model Capabilities

Sentence similarity calculation

Semantic search

Text clustering

Use Cases

Information retrieval

Question-answering system

Used to build Spanish question-answering systems, quickly retrieving answers related to questions.

Can accurately match questions with relevant text segments.

Content recommendation

🚀 Sentence-Transformers Model for Sentence Similarity

This is a sentence-transformers model that maps sentences and paragraphs to a 768-dimensional dense vector space. It can be used for tasks such as clustering or semantic search, providing efficient solutions for natural language processing.

🚀 Quick Start

Using this model becomes easy when you have sentence-transformers installed:

pip install -U sentence-transformers

💻 Usage Examples

Basic Usage

from sentence_transformers import SentenceTransformer, util

# Load model
model = SentenceTransformer('dariolopez/roberta-base-bne-finetuned-msmarco-qa-es-mnrl-mn')

# Some examples that may contain information that is relevant to your question
corpus = [
    "Napoleón I Bonaparte (Ajaccio, 15 de agosto de 1769-Longwood, 5 de mayo de 1821) fue un militar y estadista francés, general republicano durante la Revolución francesa y el Directorio, y artífice del golpe de Estado del 18 de brumario que lo convirtió en primer cónsul (Premier Consul) de la República el 11 de noviembre de 1799.",
    "Luis XVI de Francia (en francés: Louis XVI; Versalles, 23 de agosto de 1754 – París, 21 de enero de 1793) fue rey de Francia y de Navarra4 entre 1774 y 1789, copríncipe de Andorra entre 1774 y 1793, y rey de los franceses3 entre 1789 y 1792.2 Fue el último monarca antes de la caída de la monarquía por la Revolución Francesa, así como el último que ejerció sus poderes de monarca absoluto.",
    "Felipe VI de España (Madrid, 30 de enero de 1968) es el actual rey de España, título por el que ostenta la jefatura del Estado y el mando supremo de las Fuerzas Armadas, desde el 19 de junio de 2014, fecha en que ascendió al trono por la abdicación de su padre, el rey Juan Carlos I.",
    "Lionel Andrés Messi Cuccittini (Rosario, 24 de junio de 1987), conocido como Leo Messi, es un futbolista argentino que juega como delantero o centrocampista. Jugador histórico del Fútbol Club Barcelona, al que estuvo ligado veinte años, desde 2021 integra el plantel del Paris Saint-Germain de la Ligue 1 de Francia. Es también internacional con la selección de Argentina, equipo del que es capitán."
]

# Your question
query = "Listar aquellos personajes que tuvieron poder en Francia"

# Encode corpus and query
corpus_embeddings = model.encode(corpus)
query_embedding = model.encode(query)

# Get the 2 best results on the corpus options
hits = util.semantic_search(query_embedding, corpus_embeddings, top_k=2)[0]
for hit in hits:
    print(f"corpus_id: {hit['corpus_id']}, score: {hit['score']}, text: {corpus[hit['corpus_id']][0:100]}...")
# output:
# corpus_id: 1, score: 0.5533886551856995, text: Luis XVI de Francia (en francés: Louis XVI; Versalles, 23 de agosto de 1754 – París, 21 de enero de ...
# corpus_id: 0, score: 0.5308797955513, text: Napoleón I Bonaparte (Ajaccio, 15 de agosto de 1769-Longwood, 5 de mayo de 1821) fue un militar y es...

📚 Documentation

Training

The trained model is a fine-tuned version of PlanTL-GOB-ES/roberta-base-bne focused on question/answer using MS-MARCO dataset translated into Spanish (query - positive - negative - negative - negative - negative) dataset to train.

Features

Base Model
Config used to train
Dataset: IIC/ms_marco_es (query - positive - negative - negative - negative - negative)
Loss: MultipleNegativesRankingLoss

Config

{
    "model_name": "PlanTL-GOB-ES/roberta-base-bne",
    "max_seq_length": 512,
    "epochs": 10,
    "warmup_steps": 1000,
    "batch_size": 16,
    "optimizer_params": {
        "lr": 2e-05
    },
    "loss": "mnrl",
    "dataset_train_size": 481335,
    "dataset_name": "IIC/ms_marco_es",
    "seed": 42,
    "length_embedding": 768
}

Source code to train

https://github.com/bukosabino/sbert-spanish/tree/main

Considerations for Using the Model

The model is designed for use in Spanish language, specially focused on Question/Answer.

Max input length

By default, input text longer than 512 word pieces is truncated.

📄 License

This work is licensed under a Apache License, Version 2.0

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご