Multilingual_SimCSEオープンソースモデル - 多言語テキストを同じベクトル空間にマッピングする

ホーム

Multilingual SimCSE

WENGSYXによって開発

平行言語ペアで訓練された対照学習モデルで、異なる言語の平行文ペアを通じてテキストを同じベクトル空間にマッピング

テキスト埋め込み

Transformers

#多言語埋め込み #平行文ペア訓練 #言語間意味マッチング

ダウンロード数 84

リリース時間 : 3/2/2022

モデル概要

mDeBERTaアーキテクチャに基づく多言語文埋め込みモデルで、平行コーパス上で対照学習を使用して訓練され、言語間意味類似度計算をサポート

モデル特徴

言語間アラインメント

平行コーパス訓練により異なる言語の文を統一された意味空間にマッピング

対照学習最適化

SimCSEスタイルの対照損失関数を使用して意味表現を強化

大規模訓練

1億組の平行文ペアを使用して事前訓練

モデル能力

言語間文埋め込み

意味類似度計算

多言語テキストアラインメント

使用事例

言語間検索

多言語ドキュメントマッチング

異なる言語のドキュメントライブラリで意味的に類似したドキュメントを検索

コサイン類似度0.87（例：'Hello,world'と'你好,世界'の類似度）

機械翻訳支援

翻訳品質評価

埋め込み類似度を通じて翻訳結果の品質を評価

🚀 多言語SimCSE

多言語SimCSEは、対照学習モデルです。異なる言語の平行文ペアを使用して、テキストを同じベクトル空間にマッピングして事前学習を行います。これはSimCSEモデルに似ています。

🚀 クイックスタート

環境の準備

まず、必要なライブラリをインストールする必要があります。以下のコマンドを使用できます。

pip install transformers torch

サンプルコードの実行

以下は、多言語SimCSEモデルを使用してテキストの類似度を計算するサンプルコードです。

from transformers import AutoModel,AutoTokenizer
import torch
from torch.nn import functional as F

model = AutoModel.from_pretrained('WENGSYX/Multilingual_SimCSE')
tokenizer = AutoTokenizer.from_pretrained('WENGSYX/Multilingual_SimCSE')

word1 = tokenizer('Hello,world.',return_tensors='pt')
word2 = tokenizer('你好,世界',return_tensors='pt')
out1 = model(**word1).last_hidden_state.mean(1)
out2 = model(**word2).last_hidden_state.mean(1)
print(F.cosine_similarity(out1,out2))
----------------------------------------------------
tensor([0.8758], grad_fn=<DivBackward0>)

✨ 主な機能

多言語対応：平行言語ペアを使用して学習することで、複数の言語のテキストを処理できます。
対照学習：対照学習の方法を採用して、異なる言語のテキストを同じベクトル空間にマッピングし、異言語間の意味理解を容易にします。

📦 インストール

多言語SimCSEモデルを使用するには、transformersライブラリを使用してインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import AutoModel,AutoTokenizer
import torch
from torch.nn import functional as F

model = AutoModel.from_pretrained('WENGSYX/Multilingual_SimCSE')
tokenizer = AutoTokenizer.from_pretrained('WENGSYX/Multilingual_SimCSE')

word1 = tokenizer('Hello,world.',return_tensors='pt')
word2 = tokenizer('你好,世界',return_tensors='pt')
out1 = model(**word1).last_hidden_state.mean(1)
out2 = model(**word2).last_hidden_state.mean(1)
print(F.cosine_similarity(out1,out2))

高度な使用法

以下は、多言語SimCSEモデルを学習するサンプルコードです。

from transformers import AutoModel,AutoTokenizer,AdamW
import torch
from torch.nn import functional as F

model = AutoModel.from_pretrained('WENGSYX/Multilingual_SimCSE')
tokenizer = AutoTokenizer.from_pretrained('WENGSYX/Multilingual_SimCSE')
optimizer = AdamW(model.parameters(),lr=1e-5)

def compute_loss(y_pred, t=0.05, device="cuda"):
    idxs = torch.arange(0, y_pred.shape[0], device=device)
    y_true = idxs + 1 - idxs % 2 * 2
    similarities = F.cosine_similarity(y_pred.unsqueeze(1), y_pred.unsqueeze(0), dim=2)
    similarities = similarities - torch.eye(y_pred.shape[0], device=device) * 1e12
    similarities = similarities / t
    loss = F.cross_entropy(similarities, y_true)
    return torch.mean(loss)
    
wordlist = [['Hello,world','你好,世界'],['Pensa che il bianco rappresenti la purezza.','Он думает, что белые символизируют чистоту.']]

input_ids, attention_mask, token_type_ids = [], [], []
for x in wordlist:
    text1 = tokenizer(x[0], padding='max_length', truncation=True, max_length=512)
    input_ids.append(text1['input_ids'])
    attention_mask.append(text1['attention_mask'])
    text2 = tokenizer(x[1], padding='max_length', truncation=True, max_length=512)
    input_ids.append(text2['input_ids'])
    attention_mask.append(text2['attention_mask'])

input_ids = torch.tensor(input_ids,device=device)
attention_mask = torch.tensor(attention_mask,device=device)

output = model(input_ids=input_ids,attention_mask=attention_mask)
output = output.last_hidden_state.mean(1)
loss = compute_loss(output)
loss.backward()

optimizer.step()
optimizer.zero_grad()

🔧 技術詳細

事前学習モデル：mDeBERTaモデルを使用して事前学習パラメータをロードします。
学習データセット：CCMatrixデータセットに基づいて事前学習を行い、学習データには1億個の平行ペアが含まれています。
学習デバイス：4 * 3090を使用して学習を行います。

📄 情報テーブル

属性	詳細
モデルタイプ	多言語対照学習モデル
事前学習モデル	mDeBERTa
学習データ	1億個の平行ペア、CCMatrixデータセットから
学習デバイス	4 * 3090