German_Semantic_STS_V2開源德語語義相似度模型

首頁

German Semantic STS V2

由aari1995開發

德語語義相似度模型，基於gBERT-large微調，用於生成高質量的德語句子嵌入

文本嵌入

Transformers

德語#德語語義嵌入 #句子相似度計算 #檢索增強生成

下載量 15.53k

發布時間 : 11/17/2022

模型概述

該模型是一個sentence-transformers模型，專門針對德語語義任務進行優化，可將句子和段落映射到1024維向量空間，適用於聚類、語義搜索和句子相似度計算等任務。

模型特點

德語優化

專門針對德語語義任務進行微調，在德語STS任務上表現優異

高維嵌入

生成1024維的密集向量表示，捕獲豐富的語義信息

多任務適用

支持檢索增強生成(RAG)、聚類、語義搜索等多種下游任務

模型能力

句子相似度計算

語義特徵提取

文本聚類

信息檢索

語義搜索

使用案例

信息檢索

文檔檢索系統

構建德語文檔檢索系統，根據查詢語義匹配相關文檔

在GermanDPR數據集上NDCG@10達到72.921

問答系統

德語問答系統

用於問答系統的檢索組件，匹配問題與候選答案

在GermanQuAD-Retrieval數據集上MRR@5達到85.316

文本相似度

語義相似度計算

計算兩個德語句子之間的語義相似度

在GermanSTSBenchmark測試集上斯皮爾曼係數達到84.677

🚀 German_Semantic_STS_V2

該模型用於創建適用於語義場景的德語嵌入向量。它能將句子和段落映射到一個1024維的密集向量空間，可用於聚類或語義搜索等任務。

🚀 快速開始

使用sentence-transformers庫

若你已安裝 sentence-transformers，使用此模型將十分便捷：

pip install -U sentence-transformers

然後，你可以按如下方式使用該模型：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('aari1995/German_Semantic_STS_V2')
embeddings = model.encode(sentences)
print(embeddings)

使用HuggingFace Transformers庫

若未安裝 sentence-transformers，你可以按以下方式使用該模型：首先，將輸入數據傳入Transformer模型，然後對上下文詞嵌入應用合適的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('aari1995/German_Semantic_STS_V2')
model = AutoModel.from_pretrained('aari1995/German_Semantic_STS_V2')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

✨ 主要特性

該模型基於 sentence-transformers，可將句子和段落映射到1024維的密集向量空間。
適用於聚類、語義搜索等語義相關任務。
微調後的模型得分優於其他對比模型。

📦 安裝指南

使用 sentence-transformers 庫時，可通過以下命令進行安裝：

pip install -U sentence-transformers

📚 詳細文檔

評估結果

若要對該模型進行自動評估，請參考 Sentence Embeddings Benchmark：https://seb.sbert.net

訓練

該模型的訓練參數如下：

數據加載器（DataLoader）： torch.utils.data.dataloader.DataLoader，長度為1438，參數如下：

{'batch_size': 4, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

損失函數（Loss）： sentence_transformers.losses.ContrastiveLoss.ContrastiveLoss，參數如下：
```
{'distance_metric': 'SiameseDistanceMetric.COSINE_DISTANCE', 'margin': 0.5, 'size_average': True}
```

fit() 方法的參數：

{
    "epochs": 4,
    "evaluation_steps": 500,
    "evaluator": "sentence_transformers.evaluation.EmbeddingSimilarityEvaluator.EmbeddingSimilarityEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 5e-06
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 576,
    "weight_decay": 0.01
}

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

🔧 技術細節

該模型創建德語嵌入向量用於語義場景。它將句子和段落映射到1024維的密集向量空間，可用於多種語義相關任務。與其他模型相比，微調後的該模型在某些指標上表現更優。

📄 許可證

文檔中未提及相關許可證信息。

其他信息

注意事項：查看我的新的、更新後的模型：German_Semantic_V3 和 V3b！
致謝：特別感謝 deepset 提供了模型 gBERT-large，也感謝 Philip May 對數據集的翻譯以及關於該主題的交流。
模型對比： | 模型名稱 | 斯皮爾曼係數 | | --- | --- | | xlm-r-distilroberta-base-paraphrase-v1 | 0.8079 | | xlm-r-100langs-bert-base-nli-stsb-mean-tokens | 0.7877 | | xlm-r-bert-base-nli-stsb-mean-tokens | 0.7877 | | roberta-large-nli-stsb-mean-tokens | 0.6371 | | T-Systems-onsite/
german-roberta-sentence-transformer-v2 | 0.8529 | | paraphrase-multilingual-mpnet-base-v2 | 0.8355 | | T-Systems-onsite/
cross-en-de-roberta-sentence-transformer | 0.8550 | | aari1995/German_Semantic_STS_V2 | 0.8626 |