Multilingual_SimCSE Open-source Model - Map Multilingual Texts into the Same Vector Space

Multilingual SimCSE

Developed by WENGSYX

A contrastive learning model trained using parallel language pairs, mapping texts to the same vector space across different languages

Text Embedding

Transformers

#Multilingual Embedding #Parallel Sentence Pair Training #Cross-lingual Semantic Matching

Downloads 84

Release Time : 3/2/2022

Model Overview

Multilingual sentence embedding model based on mDeBERTa architecture, trained with contrastive learning on parallel corpora, supporting cross-lingual semantic similarity computation

Model Features

Cross-lingual Alignment

Training with parallel corpora maps sentences in different languages to a unified semantic space

Contrastive Learning Optimization

Uses SimCSE-style contrastive loss function to enhance semantic representation

Large-scale Training

Pre-trained using 100 million parallel sentence pairs

Model Capabilities

Cross-lingual sentence embedding

Semantic similarity computation

Multilingual text alignment

Use Cases

Cross-lingual Retrieval

Multilingual Document Matching

Finding semantically similar documents in document libraries of different languages

Cosine similarity 0.87 (example similarity between 'Hello,world' and '你好,世界')

Machine Translation Assistance

Translation Quality Evaluation

Assessing translation quality through embedding similarity

🚀 Multilingual SimCSE

A contrastive learning model using parallel language pair training

This model maps text into the same vector space for pre - training by leveraging parallel sentence pairs in different languages, similar to SimCSE. It first loads pre - training parameters using the mDeBERTa model and then conducts pre - training based on the CCMatrix dataset.

Training Data: 100 million parallel pairs
Training Equipment: 4 * 3090

🚀 Quick Start

💻 Usage Examples

Basic Usage

from transformers import AutoModel,AutoTokenizer

model = AutoModel.from_pretrained('WENGSYX/Multilingual_SimCSE')
tokenizer = AutoTokenizer.from_pretrained('WENGSYX/Multilingual_SimCSE')

word1 = tokenizer('Hello,world.',return_tensors='pt')
word2 = tokenizer('你好,世界',return_tensors='pt')
out1 = model(**word1).last_hidden_state.mean(1)
out2 = model(**word2).last_hidden_state.mean(1)
print(F.cosine_similarity(out1,out2))
----------------------------------------------------
tensor([0.8758], grad_fn=<DivBackward0>)

Advanced Usage

from transformers import AutoModel,AutoTokenizer,AdamW

model = AutoModel.from_pretrained('WENGSYX/Multilingual_SimCSE')
tokenizer = AutoTokenizer.from_pretrained('WENGSYX/Multilingual_SimCSE')
optimizer = AdamW(model.parameters(),lr=1e-5)

def compute_loss(y_pred, t=0.05, device="cuda"):
    idxs = torch.arange(0, y_pred.shape[0], device=device)
    y_true = idxs + 1 - idxs % 2 * 2
    similarities = F.cosine_similarity(y_pred.unsqueeze(1), y_pred.unsqueeze(0), dim=2)
    similarities = similarities - torch.eye(y_pred.shape[0], device=device) * 1e12
    similarities = similarities / t
    loss = F.cross_entropy(similarities, y_true)
    return torch.mean(loss)
    
wordlist = [['Hello,world','你好,世界'],['Pensa che il bianco rappresenti la purezza.','Он думает, что белые символизируют чистоту.']]

input_ids, attention_mask, token_type_ids = [], [], []
for x in wordlist:
    text1 = tokenizer(x[0], padding='max_length', truncation=True, max_length=512)
    input_ids.append(text1['input_ids'])
    attention_mask.append(text1['attention_mask'])
    text2 = tokenizer(x[1], padding='max_length', truncation=True, max_length=512)
    input_ids.append(text2['input_ids'])
    attention_mask.append(text2['attention_mask'])

input_ids = torch.tensor(input_ids,device=device)
attention_mask = torch.tensor(attention_mask,device=device)

output = model(input_ids=input_ids,attention_mask=attention_mask)
output = output.last_hidden_state.mean(1)
loss = compute_loss(output)
loss.backward()

optimizer.step()
optimizer.zero_grad()

Property	Details
Model Type	A contrastive learning model using parallel language pair training
Training Data	100 million parallel pairs

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご