ko-sbert-multitask开源韩语句子嵌入模型 - 免费将句子段落映射到向量空间

首页

Ko Sbert Multitask

由 jhgan 开发

这是一个基于sentence-transformers的韩语句子嵌入模型，能够将句子和段落映射到768维的密集向量空间。

文本嵌入 #韩语句子嵌入 #多任务学习 #语义相似度

下载量 7,030

发布时间 : 3/2/2022

模型简介

该模型主要用于处理韩语句子，能够生成高质量的句子嵌入，适用于聚类、语义搜索等自然语言处理任务。

模型特点

多任务学习

模型通过多任务学习训练，能够更好地捕捉句子的语义信息。

高维向量空间

将句子映射到768维的密集向量空间，提供丰富的语义表示。

韩语优化

专门针对韩语句子进行优化，能够更好地处理韩语语法和语义。

模型能力

句子嵌入

语义搜索

文本聚类

句子相似度计算

使用案例

信息检索

语义搜索

使用句子嵌入进行语义搜索，提高搜索结果的相关性。

能够更准确地匹配用户查询的语义意图。

文本分析

文本聚类

将相似的韩语文本自动聚类，用于主题分析或数据整理。

能够有效识别语义相似的文本组。

🚀 ko-sbert-multitask

这是一个 sentence-transformers 模型，它可以将句子和段落映射到一个 768 维的密集向量空间，可用于聚类或语义搜索等任务。

🚀 快速开始

安装依赖

若要使用此模型，需先安装 sentence-transformers：

pip install -U sentence-transformers

使用示例

基础用法

使用 sentence-transformers 库调用该模型：

from sentence_transformers import SentenceTransformer
sentences = ["안녕하세요?", "한국어 문장 임베딩을 위한 버트 모델입니다."]

model = SentenceTransformer('jhgan/ko-sbert-multitask')
embeddings = model.encode(sentences)
print(embeddings)

高级用法

若不使用 sentence-transformers 库，可按以下方式使用模型：首先将输入传递给 Transformer 模型，然后对上下文词嵌入应用正确的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('jhgan/ko-sbert-multitask')
model = AutoModel.from_pretrained('jhgan/ko-sbert-multitask')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📊 评估结果

这是在 KorSTS、KorNLI 训练数据集上进行多任务训练后，使用 KorSTS 评估数据集进行评估的结果：

评估指标	数值
Cosine Pearson	84.13
Cosine Spearman	84.71
Euclidean Pearson	82.42
Euclidean Spearman	82.66
Manhattan Pearson	81.41
Manhattan Spearman	81.69
Dot Pearson	80.05
Dot Spearman	79.69

🔧 训练细节

模型的训练参数如下：

数据加载器 1

sentence_transformers.datasets.NoDuplicatesDataLoader.NoDuplicatesDataLoader，长度为 8885，参数如下：

{'batch_size': 64}

损失函数 1

sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss，参数如下：

{'scale': 20.0, 'similarity_fct': 'cos_sim'}

数据加载器 2

torch.utils.data.dataloader.DataLoader，长度为 719，参数如下：

{'batch_size': 8, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

损失函数 2

sentence_transformers.losses.CosineSimilarityLoss.CosineSimilarityLoss

训练方法参数

{
    "epochs": 5,
    "evaluation_steps": 1000,
    "evaluator": "sentence_transformers.evaluation.EmbeddingSimilarityEvaluator.EmbeddingSimilarityEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'transformers.optimization.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 360,
    "weight_decay": 0.01
}

📚 完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

📄 引用与作者

Ham, J., Choe, Y. J., Park, K., Choi, I., & Soh, H. (2020). Kornli and korsts: New benchmark datasets for korean natural language understanding. arXiv preprint arXiv:2004.03289
Reimers, Nils and Iryna Gurevych. “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks.” ArXiv abs/1908.10084 (2019)
Reimers, Nils and Iryna Gurevych. “Making Monolingual Sentence Embeddings Multilingual Using Knowledge Distillation.” EMNLP (2020).