ko-sbert-multitask開源韓語句子嵌入模型 - 免費將句子段落映射到向量空間

首頁

Ko Sbert Multitask

由jhgan開發

這是一個基於sentence-transformers的韓語句子嵌入模型，能夠將句子和段落映射到768維的密集向量空間。

文本嵌入 #韓語句子嵌入 #多任務學習 #語義相似度

下載量 7,030

發布時間 : 3/2/2022

模型概述

該模型主要用於處理韓語句子，能夠生成高質量的句子嵌入，適用於聚類、語義搜索等自然語言處理任務。

模型特點

多任務學習

模型通過多任務學習訓練，能夠更好地捕捉句子的語義信息。

高維向量空間

將句子映射到768維的密集向量空間，提供豐富的語義表示。

韓語優化

專門針對韓語句子進行優化，能夠更好地處理韓語語法和語義。

模型能力

句子嵌入

語義搜索

文本聚類

句子相似度計算

使用案例

信息檢索

語義搜索

使用句子嵌入進行語義搜索，提高搜索結果的相關性。

能夠更準確地匹配用戶查詢的語義意圖。

文本分析

文本聚類

將相似的韓語文本自動聚類，用於主題分析或數據整理。

能夠有效識別語義相似的文本組。

🚀 ko-sbert-multitask

這是一個 sentence-transformers 模型，它可以將句子和段落映射到一個 768 維的密集向量空間，可用於聚類或語義搜索等任務。

🚀 快速開始

安裝依賴

若要使用此模型，需先安裝 sentence-transformers：

pip install -U sentence-transformers

使用示例

基礎用法

使用 sentence-transformers 庫調用該模型：

from sentence_transformers import SentenceTransformer
sentences = ["안녕하세요?", "한국어 문장 임베딩을 위한 버트 모델입니다."]

model = SentenceTransformer('jhgan/ko-sbert-multitask')
embeddings = model.encode(sentences)
print(embeddings)

高級用法

若不使用 sentence-transformers 庫，可按以下方式使用模型：首先將輸入傳遞給 Transformer 模型，然後對上下文詞嵌入應用正確的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('jhgan/ko-sbert-multitask')
model = AutoModel.from_pretrained('jhgan/ko-sbert-multitask')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📊 評估結果

這是在 KorSTS、KorNLI 訓練數據集上進行多任務訓練後，使用 KorSTS 評估數據集進行評估的結果：

評估指標	數值
Cosine Pearson	84.13
Cosine Spearman	84.71
Euclidean Pearson	82.42
Euclidean Spearman	82.66
Manhattan Pearson	81.41
Manhattan Spearman	81.69
Dot Pearson	80.05
Dot Spearman	79.69

🔧 訓練細節

模型的訓練參數如下：

數據加載器 1

sentence_transformers.datasets.NoDuplicatesDataLoader.NoDuplicatesDataLoader，長度為 8885，參數如下：

{'batch_size': 64}

損失函數 1

sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss，參數如下：

{'scale': 20.0, 'similarity_fct': 'cos_sim'}

數據加載器 2

torch.utils.data.dataloader.DataLoader，長度為 719，參數如下：

{'batch_size': 8, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

損失函數 2

sentence_transformers.losses.CosineSimilarityLoss.CosineSimilarityLoss

訓練方法參數

{
    "epochs": 5,
    "evaluation_steps": 1000,
    "evaluator": "sentence_transformers.evaluation.EmbeddingSimilarityEvaluator.EmbeddingSimilarityEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'transformers.optimization.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 360,
    "weight_decay": 0.01
}

📚 完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

📄 引用與作者

Ham, J., Choe, Y. J., Park, K., Choi, I., & Soh, H. (2020). Kornli and korsts: New benchmark datasets for korean natural language understanding. arXiv preprint arXiv:2004.03289
Reimers, Nils and Iryna Gurevych. “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks.” ArXiv abs/1908.10084 (2019)
Reimers, Nils and Iryna Gurevych. “Making Monolingual Sentence Embeddings Multilingual Using Knowledge Distillation.” EMNLP (2020).