moco-sentencebertV2.0開源模型 - 支持韓英語義計算與文本特徵提取

首頁

Moco Sentencebertv2.0

由bongsoo開發

基於韓語和英語優化的句子嵌入模型，支持語義相似度計算和文本特徵提取

文本嵌入

Transformers

支持多種語言#韓英雙語語義匹配 #師生蒸餾優化 #多領域STS適配

下載量 17

發布時間 : 9/19/2022

模型概述

該模型是基於multilingual BERT改進的句子嵌入模型，通過師生蒸餾訓練優化，適用於韓語和英語的句子相似度計算、語義搜索和文本聚類任務。

模型特點

雙語優化

專門針對韓語和英語進行優化，在兩種語言的語義理解任務中表現優異

知識蒸餾

採用paraphrase-multilingual-mpnet-base-v2作為教師模型進行蒸餾訓練，提升模型性能

擴展詞彙

在原始multilingual BERT基礎上新增32,989個詞彙，總詞彙量達152,537個

高效推理

支持最大128 token長度輸入，在單GPU上推理顯存佔用約9GB

模型能力

句子嵌入生成

語義相似度計算

文本特徵提取

跨語言語義匹配

使用案例

信息檢索

相似問題匹配

在問答系統中查找與用戶提問語義相似的問題

在korsts測試集上達到0.824的餘弦相似度得分

內容推薦

相關文章推薦

基於內容語義相似度推薦相關文章或新聞

多語言應用

韓英跨語言搜索

支持韓語和英語之間的跨語言語義匹配

在stsb_multi_mt數據集上達到0.843的相似度得分

🚀 moco-sentencebertV2.0

moco-sentencebertV2.0 是一個 sentence-transformers 模型，它可以將句子和段落映射到 768 維的密集向量空間，可用於聚類或語義搜索等任務。

🚀 快速開始

本模型可用於句子相似度計算等任務。以下是使用該模型的快速指引。

✨ 主要特性

此模型由 bongsoo/mbertV2.0 MLM 模型轉換為 sentencebert 後，再經過 STS 師生蒸餾學習得到。
詞彙表：包含 152,537 個詞彙（在原有的 119,548 個詞彙基礎上新增 32,989 個）。

📦 安裝指南

若已安裝 sentence-transformers，使用該模型將十分便捷：

pip install -U sentence_transformers

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('bongsoo/moco-sentencebertV2.0')
embeddings = model.encode(sentences)
print(embeddings)

# sklearn 을 이용하여 cosine_scores를 구함
# => 입력값 embeddings 은 (1,768) 처럼 2D 여야 함.
from sklearn.metrics.pairwise import paired_cosine_distances, paired_euclidean_distances, paired_manhattan_distances
cosine_scores = 1 - (paired_cosine_distances(embeddings[0].reshape(1,-1), embeddings[1].reshape(1,-1)))

print(f'*cosine_score:{cosine_scores[0]}')

高級用法

若未安裝 sentence-transformers，可按以下方式使用該模型：首先將輸入數據傳入 Transformer 模型，然後對上下文詞嵌入應用合適的池化操作。

採用平均池化（mean_pooling）方式（cls 池化，max 池化）。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('bongsoo/moco-sentencebertV2.0')
model = AutoModel.from_pretrained('bongsoo/moco-sentencebertV2.0')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

# sklearn 을 이용하여 cosine_scores를 구함
# => 입력값 embeddings 은 (1,768) 처럼 2D 여야 함.
from sklearn.metrics.pairwise import paired_cosine_distances, paired_euclidean_distances, paired_manhattan_distances
cosine_scores = 1 - (paired_cosine_distances(sentence_embeddings[0].reshape(1,-1), sentence_embeddings[1].reshape(1,-1)))

print(f'*cosine_score:{cosine_scores[0]}')

📚 詳細文檔

評估結果

用於性能測量的語料庫包括以下韓語（kor）和英語（en）評估語料庫：
- 韓語：korsts（1,379 對句子） 和 klue-sts（519 對句子）
- 英語：stsb_multi_mt（1,376 對句子）和 glue:stsb（1,500 對句子）
性能指標採用 cosin.spearman 進行測量和比較。
評估測量代碼可參考此處。

模型	korsts	klue-sts	korsts+klue-sts	stsb_multi_mt	glue(stsb)
distiluse-base-multilingual-cased-v2	0.747	0.785	0.577	0.807	0.819
paraphrase-multilingual-mpnet-base-v2	0.820	0.799	0.711	0.868	0.890
bongsoo/sentencedistilbertV1.2	0.819	0.858	0.630	0.837	0.873
bongsoo/moco-sentencedistilbertV2.0	0.812	0.847	0.627	0.837	0.877
bongsoo/moco-sentencebertV2.0	0.824	0.841	0.635	0.843	0.879

如需對該模型進行自動評估，請參考 Sentence Embeddings Benchmark：https://seb.sbert.net

訓練過程

該模型的訓練參數如下：

1. MLM 訓練

輸入模型：bert-base-multilingual-cased
語料庫：訓練集為 bongsoo/moco-corpus-kowiki2022（760 萬個），評估集為 bongsoo/bongevalsmall
超參數：學習率為 5e-5，訓練輪數為 8，批次大小為 32，最大令牌長度為 128
詞彙表：152,537 個（在原有 119,548 個詞彙基礎上新增 32,989 個）
輸出模型：mbertV2.0（大小：813MB）
訓練時間：90 小時/1 個 GPU（24GB，使用 19.6GB）
損失：訓練損失為 2.258400，評估損失為 3.102096，困惑度為 19.78158（bong_eval：1,500）
訓練代碼參考此處

2. STS 訓練

將 bert 轉換為 sentencebert。

輸入模型：mbertV2.0
語料庫：korsts + kluestsV1.1 + stsb_multi_mt + mteb/sickr-sts（共 33,093 個）
超參數：學習率為 3e-5，訓練輪數為 200，批次大小為 32，最大令牌長度為 128
輸出模型：sbert-mbertV2.0（大小：813MB）
訓練時間：9 小時 20 分鐘/1 個 GPU（24GB，使用 9.0GB）
損失（cosin_spearman）：0.799（語料庫：korsts(tune_test.tsv)）
訓練代碼參考此處

3. 蒸餾（distilation）訓練

學生模型：sbert-mbertV2.0
教師模型：paraphrase-multilingual-mpnet-base-v2
語料庫：en_ko_train.tsv（韓語 - 英語社會科學領域平行語料庫：110 萬個）
超參數：學習率為 5e-5，訓練輪數為 40，批次大小為 128，最大令牌長度為 128
輸出模型：sbert-mlbertV2.0-distil
訓練時間：17 小時/1 個 GPU（24GB，使用 18.6GB）
訓練代碼參考此處

4. STS 訓練

對 sentencebert 模型進行 STS 訓練。

輸入模型：sbert-mlbertV2.0-distil
語料庫：korsts（5,749 個）+ kluestsV1.1（11,668 個）+ stsb_multi_mt（5,749 個）+ mteb/sickr-sts（9,927 個）+ glue stsb（5,749 個）（共 38,842 個）
超參數：學習率為 3e-5，訓練輪數為 800，批次大小為 64，最大令牌長度為 128
輸出模型：moco-sentencebertV2.0
訓練時間：25 小時/1 個 GPU（24GB，使用 13GB）
訓練代碼參考此處

模型製作過程的詳細內容可參考此處。

數據加載器

torch.utils.data.dataloader.DataLoader 長度為 1035，參數如下：

{'batch_size': 32, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

配置

{
  "_name_or_path": "../../data11/model/sbert/sbert-mbertV2.0-distil",
  "architectures": [
    "BertModel"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "directionality": "bidi",
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "pooler_fc_size": 768,
  "pooler_num_attention_heads": 12,
  "pooler_num_fc_layers": 3,
  "pooler_size_per_head": 128,
  "pooler_type": "first_token_transform",
  "position_embedding_type": "absolute",
  "torch_dtype": "float32",
  "transformers_version": "4.21.2",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 152537
}

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)