ko-sroberta-multitask開源韓語句子嵌入模型 - 助力聚類與語義搜索任務

首頁

Ko Sroberta Multitask

由jhgan開發

這是一個基於sentence-transformers的韓語句子嵌入模型，能夠將句子和段落映射到768維的密集向量空間，適用於聚類或語義搜索等任務。

文本嵌入韓語#韓語句子嵌入 #多任務學習 #語義相似度

下載量 162.23k

發布時間 : 3/2/2022

模型概述

該模型基於RoBERTa架構，經過多任務學習訓練，專門用於處理韓語句子的嵌入表示，支持句子相似度計算和特徵提取。

模型特點

多任務學習

模型使用KorSTS和KorNLI訓練數據集進行多任務學習，提高了句子嵌入的質量。

高效語義表示

能夠將句子和段落高效地映射到768維的密集向量空間，保留語義信息。

韓語優化

專門針對韓語進行優化，適合處理韓語句子的嵌入和相似度計算。

模型能力

句子嵌入

語義搜索

文本聚類

句子相似度計算

使用案例

自然語言處理

語義搜索

使用句子嵌入進行高效的語義搜索，找到與查詢句子語義相似的文檔或段落。

文本聚類

將大量韓語文本聚類成具有相似語義的組別，用於文本分類或信息組織。

🚀 韓語多任務句子嵌入模型ko - sroberta - multitask

本模型是基於 sentence - transformers 的模型，它能夠將句子和段落映射到 768 維的密集向量空間，可用於聚類、語義搜索等任務。

🚀 快速開始

📦 安裝指南

若已安裝 sentence - transformers，使用此模型將十分便捷：

pip install -U sentence-transformers

💻 使用示例

基礎用法

使用 sentence - transformers 庫調用模型：

from sentence_transformers import SentenceTransformer
sentences = ["안녕하세요?", "한국어 문장 임베딩을 위한 버트 모델입니다."]

model = SentenceTransformer('jhgan/ko-sroberta-multitask')
embeddings = model.encode(sentences)
print(embeddings)

高級用法

若未安裝 sentence - transformers，可按以下方式使用模型：首先將輸入數據傳入 Transformer 模型，然後對上下文詞嵌入應用合適的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('jhgan/ko-sroberta-multitask')
model = AutoModel.from_pretrained('jhgan/ko-sroberta-multitask')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 詳細文檔

🔍 評估結果

該模型在 KorSTS、KorNLI 訓練數據集上進行多任務訓練後，使用 KorSTS 評估數據集進行評估，結果如下：

評估指標	數值
Cosine Pearson	84.77
Cosine Spearman	85.60
Euclidean Pearson	83.71
Euclidean Spearman	84.40
Manhattan Pearson	83.70
Manhattan Spearman	84.38
Dot Pearson	82.42
Dot Spearman	82.33

🔧 技術細節

訓練參數

數據加載器 1：
- 類型：sentence_transformers.datasets.NoDuplicatesDataLoader.NoDuplicatesDataLoader
- 長度：8885
- 參數：
```
{'batch_size': 64}
```
損失函數 1：
- 類型：sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss
- 參數：
```
{'scale': 20.0, 'similarity_fct': 'cos_sim'}
```

數據加載器 2：

類型：torch.utils.data.dataloader.DataLoader
長度：719
參數：

{'batch_size': 8, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

損失函數 2：
- 類型：sentence_transformers.losses.CosineSimilarityLoss.CosineSimilarityLoss

訓練方法參數

{
    "epochs": 5,
    "evaluation_steps": 1000,
    "evaluator": "sentence_transformers.evaluation.EmbeddingSimilarityEvaluator.EmbeddingSimilarityEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'transformers.optimization.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 360,
    "weight_decay": 0.01
}

🏗️ 完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

📄 引用與作者

Ham, J., Choe, Y. J., Park, K., Choi, I., & Soh, H. (2020). Kornli and korsts: New benchmark datasets for korean natural language understanding. arXiv preprint arXiv:2004.03289
Reimers, Nils and Iryna Gurevych. “Sentence - BERT: Sentence Embeddings using Siamese BERT - Networks.” ArXiv abs/1908.10084 (2019)
Reimers, Nils and Iryna Gurevych. “Making Monolingual Sentence Embeddings Multilingual Using Knowledge Distillation.” EMNLP (2020).