klue-sroberta-base開源韓語句子嵌入模型 - 優化相似度任務，免費可用！

首頁

Klue Sroberta Base Continue Learning By Mnr

由bespin-global開發

這是一個基於KLUE/NLI和KLUE/STS數據集訓練的韓語句子嵌入模型，採用sentence-transformers框架，通過兩階段訓練優化句子相似度任務。

文本嵌入

Transformers

韓語#韓語句子相似度 #多階段訓練 #稠密向量表示

下載量 88.10k

發布時間 : 4/4/2022

模型概述

該模型能夠將韓語句子和段落映射到768維稠密向量空間，適用於聚類、語義搜索等自然語言處理任務。

模型特點

兩階段訓練

先使用NLI數據集進行負採樣訓練，再使用STS數據集優化相似度任務

高效語義表示

能夠生成高質量的句子嵌入向量，有效捕捉語義信息

韓語優化

專門針對韓語文本進行訓練和優化

模型能力

句子嵌入

語義相似度計算

文本聚類

語義搜索

使用案例

信息檢索

相似文檔檢索

根據查詢句子查找語義相似的文檔

高準確度的相似文檔匹配

文本分析

文本聚類

將語義相似的文本分組

有效的主題聚類

🚀 bespin-global/klue-sroberta-base-continue-learning-by-mnr

該模型利用了KLUE/NLI、KLUE/STS數據集，並通過sentence-transformers官方文檔中介紹的持續學習方法進行了如下訓練：

通過NLI數據集進行負採樣後，利用MultipleNegativeRankingLoss進行第一次NLI訓練。
對在步驟1中訓練完成的模型，通過STS數據集，利用CosineSimilarityLoss進行第二次STS訓練。

關於訓練的詳細內容，請參考博客和Colab實踐代碼。

這是一個sentence-transformers模型：它可以將句子和段落映射到768維的密集向量空間，可用於聚類或語義搜索等任務。

🚀 快速開始

本模型可以通過sentence-transformers庫或HuggingFace Transformers庫使用，下面分別介紹使用方法。

✨ 主要特性

利用KLUE/NLI、KLUE/STS數據集進行訓練。
通過持續學習方法，先進行NLI訓練，再進行STS訓練。
可將句子和段落映射到768維的密集向量空間，適用於聚類或語義搜索等任務。

📦 安裝指南

若要使用本模型，需要安裝sentence-transformers庫，可使用以下命令進行安裝：

pip install -U sentence-transformers

💻 使用示例

基礎用法（Sentence-Transformers）

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer("bespin-global/klue-sroberta-base-continue-learning-by-mnr")
embeddings = model.encode(sentences)
print(embeddings)

高級用法（HuggingFace Transformers）

若未安裝sentence-transformers庫，可以按以下方式使用該模型：首先將輸入傳遞給Transformer模型，然後對上下文詞嵌入應用正確的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained("bespin-global/klue-sroberta-base-continue-learning-by-mnr")
model = AutoModel.from_pretrained("bespin-global/klue-sroberta-base-continue-learning-by-mnr")

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 詳細文檔

評估結果

EmbeddingSimilarityEvaluator：在sts - test數據集上評估模型

餘弦相似度：
- 皮爾遜相關係數：0.8901
- 斯皮爾曼相關係數：0.8893
曼哈頓距離：
- 皮爾遜相關係數：0.8867
- 斯皮爾曼相關係數：0.8818
歐幾里得距離：
- 皮爾遜相關係數：0.8875
- 斯皮爾曼相關係數：0.8827
點積相似度：
- 皮爾遜相關係數：0.8786
- 斯皮爾曼相關係數：0.8735
平均值：0.8892573547643868

訓練參數

該模型使用以下參數進行訓練：

數據加載器

torch.utils.data.dataloader.DataLoader，長度為329，參數如下：

{'batch_size': 32, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

損失函數

sentence_transformers.losses.CosineSimilarityLoss.CosineSimilarityLoss

fit()方法的參數：

{
    "epochs": 4,
    "evaluation_steps": 32,
    "evaluator": "sentence_transformers.evaluation.EmbeddingSimilarityEvaluator.EmbeddingSimilarityEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'transformers.optimization.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 132,
    "weight_decay": 0.01
}

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': True}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)