moco - sentencedistilbertV2.0オープンソースモデル - 韓英両言語の意味検索とクラスタリングタスクをサポート

Home

Moco Sentencedistilbertv2.0

Developed by bongsoo

これはsentence-transformersに基づく韓英バイリンガルの文埋め込みモデルで、文を768次元のベクトル空間にマッピングでき、意味検索やクラスタリングタスクに適しています。

テキスト埋め込み

Transformers

Supports Multiple Languages#韓英バイリンガル #文の類似度 #意味検索

Downloads 39

Release Time : 9/5/2022

Model Overview

このモデルはmdistilbertV1.1を改良し、320万文のmoco-corpusを使って訓練され、STSの教師 - 生徒蒸留訓練によって構築され、韓語と英語の文の類似度計算をサポートします。

Model Features

バイリンガルサポート

韓語と英語の文の埋め込み表現を同時にサポートします

効率的な蒸留

教師 - 生徒蒸留訓練によってモデルの性能を向上させます

大規模訓練

320万文のmoco-corpusを使って訓練します

語彙の最適化

語彙数を164,314個に拡張し、元のモデルより17,870個の新しい語彙を追加しました

Model Capabilities

文埋め込み

意味類似度計算

テキストクラスタリング

異言語検索

Use Cases

情報検索

異言語文書検索

韓語と英語が混在する文書庫から意味的に類似した文書を検索します

異なる言語間で意味的に類似した文書を効果的に識別できます

質問応答システム

質問のマッチング

ユーザーの質問と知識ベース内の類似した質問をマッチングします

例に示すように、「韓国の首都は？」と「ソウルは韓国の首都です」の意味的な類似性を正確に識別できます

コンテンツ推薦

類似コンテンツの推薦

コンテンツの意味的な類似性に基づいて関連する記事や製品を推薦します

🚀 moco-sentencedistilbertV2.0

このモデルはsentence-transformersモデルです。文章や段落を768次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに使用できます。

🚀 クイックスタート

このモデルは、mdistilbertV1.1モデルにmoco-corpusコーパス(MOCOMSYSから抽出された320万文)を使用してSentenceBERTで作成し、さらにSTSの教師-学生蒸留学習を行って作成されたモデルです。

語彙数: 164,314個(既存のmdistilbertV1.1の語彙数(146,444個)に17,870個の語彙を追加)
MLMモデル : bongsoo/mdistilbertV2.0

✨ 主な機能

文章や段落を768次元の密ベクトル空間にマッピングすることができます。
クラスタリングや意味検索などのタスクに使用できます。

📦 インストール

sentence-transformersをインストールすると、このモデルを簡単に使用できます。

pip install -U sentence_transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('bongsoo/moco-sentencedistilbertV2.0')
embeddings = model.encode(sentences)
print(embeddings)

# sklearnを利用してcosine_scoresを求める
# => 入力値embeddingsは(1,768)のような2Dである必要があります。
from sklearn.metrics.pairwise import paired_cosine_distances, paired_euclidean_distances, paired_manhattan_distances
cosine_scores = 1 - (paired_cosine_distances(embeddings[0].reshape(1,-1), embeddings[1].reshape(1,-1)))

print(f'*cosine_score:{cosine_scores[0]}')

出力

[[ 9.7172342e-02 -3.3226651e-01 -7.7130608e-05 ...  1.3900512e-02 2.1072578e-01 -1.5386048e-01]
 [ 2.3313640e-02 -8.4675789e-02 -3.7715461e-06 ...  2.4005771e-02 -1.6602692e-01 -1.2729791e-01]]
*cosine_score:0.3383665680885315

高度な使用法

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('bongsoo/moco-sentencedistilbertV2.0')
model = AutoModel.from_pretrained('bongsoo/moco-sentencedistilbertV2.0')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

# sklearnを利用してcosine_scoresを求める
# => 入力値embeddingsは(1,768)のような2Dである必要があります。
from sklearn.metrics.pairwise import paired_cosine_distances, paired_euclidean_distances, paired_manhattan_distances
cosine_scores = 1 - (paired_cosine_distances(sentence_embeddings[0].reshape(1,-1), sentence_embeddings[1].reshape(1,-1)))

print(f'*cosine_score:{cosine_scores[0]}')

出力

Sentence embeddings:
tensor([[ 9.7172e-02, -3.3227e-01, -7.7131e-05,  ...,  1.3901e-02, 2.1073e-01, -1.5386e-01],
        [ 2.3314e-02, -8.4676e-02, -3.7715e-06,  ...,  2.4006e-02, -1.6603e-01, -1.2730e-01]])
*cosine_score:0.3383665680885315

📚 ドキュメント

評価結果

性能測定には、以下の韓国語(kor)と英語(en)の評価コーパスを使用しました。
- 韓国語 : korsts(1,379文ペア) と klue-sts(519文ペア)
- 英語 : stsb_multi_mt(1,376文ペア)
性能指標はcosin.spearmanを測定して比較しました。
評価測定コードはこちらを参照してください。

モデル	korsts	klue-sts	korsts+klue-sts	stsb_multi_mt
bongsoo/sentencedistilbertV1.2	0.819	0.858	0.630	0.837
distiluse-base-multilingual-cased-v2	0.747	0.785	0.577	0.807
paraphrase-multilingual-mpnet-base-v2	0.820	0.799	0.711	0.868
bongsoo/moco-sentencedistilbertV2.0	0.812	0.847	0.627	0.837

このモデルの自動評価については、Sentence Embeddings Benchmarkを参照してください: https://seb.sbert.net

訓練過程

このモデルは以下のパラメータで訓練されました。

1. MLM訓練

入力モデル : bongsoo/mdistilbertV1.1(*kowiki20220620(440万文)のコーパスで訓練されたdistilbert-base-multilingual-cased)
コーパス : nlp_corpus(320万文) : MOCOMSYSファイルを精製したコーパス
ハイパーパラメータ : 学習率 : 5e-5, エポック数: 8, バッチサイズ: 32, 最大トークン長 : 128
出力モデル : mdistilbertV2.0
訓練時間 : 27時間
訓練コードはこちらを参照してください。

2. STS訓練

distilbertをSentenceBERTに変換します。
入力モデル : mdistilbertV2.0
コーパス : korsts + kluestsV1.1 + stsb_multi_mt + mteb/sickr-sts (合計:33,093文)
ハイパーパラメータ : 学習率 : 2e-5, エポック数: 200, バッチサイズ: 32, 最大トークン長 : 128
出力モデル : sbert-mdistilbertV2.0
訓練時間 : 5時間
訓練コードはこちらを参照してください。

3. 蒸留(distilation)訓練

学生モデル : sbert-mdistilbertV2.0
教師モデル : paraphrase-multilingual-mpnet-base-v2
コーパス : en_ko_train.tsv(韓国語-英語の社会科学分野の並列コーパス : 110万文)
ハイパーパラメータ : 学習率 : 5e-5, エポック数: 40, バッチサイズ: 32, 最大トークン長 : 128
出力モデル : sbert-mdistilbertV2.0.2-distil
訓練時間 : 11時間
訓練コードはこちらを参照してください。

4. STS訓練

SentenceBERTモデルをSTS訓練します。
入力モデル : sbert-mdistilbertV2.0.2-distil
コーパス : korsts + kluestsV1.1 + stsb_multi_mt + mteb/sickr-sts (合計:33,093文)
ハイパーパラメータ : 学習率 : 3e-5, エポック数: 800, バッチサイズ: 32, 最大トークン長 : 128
出力モデル : moco-sentencedistilbertV2.0
訓練時間 : 15時間
訓練コードはこちらを参照してください。

モデル作成過程の詳細については、こちらを参照してください。

DataLoader: torch.utils.data.dataloader.DataLoader (長さ1035) のパラメータは以下の通りです。

{'batch_size': 32, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

Config:

{
  "_name_or_path": "../../data11/model/sbert/sbert-mdistilbertV2.0.2-distil",
  "activation": "gelu",
  "architectures": [
    "DistilBertModel"
  ],
  "attention_dropout": 0.1,
  "dim": 768,
  "dropout": 0.1,
  "hidden_dim": 3072,
  "initializer_range": 0.02,
  "max_position_embeddings": 512,
  "model_type": "distilbert",
  "n_heads": 12,
  "n_layers": 6,
  "output_past": true,
  "pad_token_id": 0,
  "qa_dropout": 0.1,
  "seq_classif_dropout": 0.2,
  "sinusoidal_pos_embds": false,
  "tie_weights_": true,
  "torch_dtype": "float32",
  "transformers_version": "4.21.2",
  "vocab_size": 164314
}

全モデルアーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: DistilBertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)