distiluse-base-multilingual-cased-v2-finetuned-stsb_multi_mt-es Open-source Model - Supports Semantic Search and Clustering in Spanish

Distiluse Base Multilingual Cased V2 Finetuned Stsb Multi Mt Es

Developed by mrm8488

This is a sentence-transformers model fine-tuned on Spanish semantic similarity datasets, capable of mapping text to a 768-dimensional vector space, suitable for semantic search and clustering tasks.

Text Embedding

Transformers

Spanish#Spanish semantic similarity #Multilingual text embedding #Sentence vectorization

Downloads 292

Release Time : 3/2/2022

Model Overview

Based on the distiluse-base-multilingual-cased-v2 architecture, this model is specifically fine-tuned for Spanish text similarity tasks, capable of generating high-quality sentence embeddings.

Model Features

Multilingual support

Based on a multilingual pre-trained model, supporting processing in multiple languages including Spanish

Efficient inference

Utilizes DistilBERT architecture, significantly reducing model size while maintaining performance

Semantic understanding

Accurately captures semantic information in Spanish sentences to generate high-quality embeddings

Model Capabilities

Sentence embedding generation

Semantic similarity calculation

Text clustering

Semantic search

Use Cases

Information retrieval

🚀 Distiluse-m-v2 fine-tuned on stsb_multi_mt for Spanish Semantic Textual Similarity

This model is a fine - tuned version of sentence - transformers (distiluse - base - multilingual - cased - v2). It maps sentences and paragraphs to a 768 - dimensional dense vector space, which can be used for tasks such as clustering or semantic search.

🚀 Quick Start

✨ Features

Maps sentences and paragraphs to a 768 - dimensional dense vector space.
Suitable for tasks like clustering and semantic search.

📦 Installation

Using this model becomes easy when you have sentence - transformers installed:

pip install -U sentence-transformers

💻 Usage Examples

Basic Usage

from sentence_transformers import SentenceTransformer
sentences = ["Nerea va a comprar un cuadro usando bitcoins", "Se puede comprar arte con bitcoins"]

model = SentenceTransformer('mrm8488/distiluse-base-multilingual-cased-v2-finetuned-stsb_multi_mt-es')
embeddings = model.encode(sentences)
print(embeddings)

Advanced Usage

Without sentence - transformers, you can use the model like this: First, you pass your input through the transformer model, then you have to apply the right pooling - operation on - top of the contextualized word embeddings.

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ["Nerea va a comprar un cuadro usando bitcoins", "Se puede comprar arte con bitcoins"]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('mrm8488/distiluse-base-multilingual-cased-v2-finetuned-stsb_multi_mt-es')
model = AutoModel.from_pretrained('mrm8488/distiluse-base-multilingual-cased-v2-finetuned-stsb_multi_mt-es')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

🔧 Technical Details

How to evaluate

from datasets import load_dataset
from sentence_transformers import SentenceTransformer, InputExample
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator


test_data = load_dataset('stsb_multi_mt', 'es', split='test')
test_data = test_data.rename_columns({'similarity_score': 'label'})
test_data = test_data.map(lambda x: {'label': x['label'] / 5.0})

samples = []
for sample in test_data:
    samples.append(InputExample(
        texts=[sample['sentence1'], sample['sentence2']],
        label=sample['label']
    ))

evaluator = EmbeddingSimilarityEvaluator.from_input_examples(
    samples, write_csv=False
)

model = SentenceTransformer('mrm8488/distiluse-base-multilingual-cased-v2-finetuned-stsb_multi_mt-es')

evaluator(model)

# It outputs: 0.7604056195656299

Evaluation Results

Spearman’s rank correlation: 0.7604056195656299

For an automated evaluation of this model, see the Sentence Embeddings Benchmark: https://seb.sbert.net

Training

The model was trained with the parameters:

DataLoader: sentence_transformers.datasets.NoDuplicatesDataLoader.NoDuplicatesDataLoader of length 906 with parameters:

{'batch_size': 16}

Loss: sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss with parameters:

{'scale': 20.0, 'similarity_fct': 'cos_sim'}

Parameters of the fit() - Method:

{
    "epochs": 3,
    "evaluation_steps": 0,
    "evaluator": "NoneType",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'transformers.optimization.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 271,
    "weight_decay": 0.01
}

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: DistilBertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

📄 License

No license information provided in the original document.

📚 Documentation

No additional detailed documentation provided in the original document.

Citing & Authors

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご