robbert-2022-dutch開源荷蘭語句子轉換器 - 實現語義搜索與聚類功能

首頁

Robbert 2022 Dutch Sentence Transformers Onnx

由Todai開發

基於RobBERT模型的荷蘭語句子轉換器ONNX版本，可將文本映射到768維向量空間，適用於語義搜索和聚類任務

文本嵌入

Transformers

其他#荷蘭語句子嵌入 #語義相似度計算 #多場景適配

下載量 30

發布時間 : 12/13/2023

模型概述

該模型是原始robbert-2022-荷蘭語-句子轉換器的ONNX轉換版本，專門用於將荷蘭語句子和段落轉換為768維密集向量表示，支持語義相似度計算和文本聚類等任務

模型特點

荷蘭語優化

專門針對荷蘭語文本進行優化訓練，在荷蘭語語義理解任務中表現優異

ONNX格式

轉換為ONNX格式，便於在不同平臺和環境中部署使用

語義向量表示

可將輸入文本轉換為768維語義向量，捕捉深層語義信息

模型能力

句子相似度計算

語義搜索

文本聚類

特徵提取

使用案例

信息檢索

重複問題檢測

識別論壇或問答平臺中的重複問題

可有效識別語義相似但表述不同的問題

內容管理

文檔聚類

對大量文檔進行自動分類和組織

基於語義相似度實現高質量的文檔分組

🚀 robbert-2022-dutch-sentence-transformers - Onnx

本項目提供了一個用於荷蘭語句子相似度計算的Onnx模型，它基於robbert-2022-dutch-sentence-transformers模型轉換而來，可用於聚類、語義搜索等任務。

🚀 快速開始

模型信息

屬性	詳情
模型創建者	Netherlands Forensic Institute
原始模型	robbert-2022-dutch-sentence-transformers

數據集

該模型在以下荷蘭語翻譯數據集上進行訓練：

NetherlandsForensicInstitute/AllNLI-translated-nl
NetherlandsForensicInstitute/altlex-translated-nl
NetherlandsForensicInstitute/coco-captions-translated-nl
NetherlandsForensicInstitute/flickr30k-captions-translated-nl
NetherlandsForensicInstitute/msmarco-translated-nl
NetherlandsForensicInstitute/quora-duplicates-translated-nl
NetherlandsForensicInstitute/sentence-compression-translated-nl
NetherlandsForensicInstitute/simplewiki-translated-nl
NetherlandsForensicInstitute/stackexchange-duplicate-questions-translated-nl
NetherlandsForensicInstitute/wiki-atomic-edits-translated-nl

模型描述

這個Onnx模型是robbert-2022-dutch-sentence-transformers的轉換版本，使用了這裡找到的transformers.js腳本進行轉換。

示例展示

示例標題：荷蘭語
- 源句子：Deze week ga ik naar de kapper
- 對比句子：
  - Ik ga binnenkort mijn haren laten knippen
  - Morgen wil ik uitslapen
  - Gisteren ging ik naar de bioscoop

✨ 主要特性

這是一個 sentence-transformers 模型，它可以將句子和段落映射到768維的密集向量空間，可用於聚類或語義搜索等任務。該模型基於 KU Leuven的RobBERT模型，並在 Paraphrase數據集上進行了微調，該數據集已被機器翻譯成荷蘭語。

📦 安裝指南

若要使用此模型，你需要安裝 sentence-transformers：

pip install -U sentence-transformers

💻 使用示例

基礎用法

使用 sentence-transformers 庫的簡單示例：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('NetherlandsForensicInstitute/robbert-2022-dutch-sentence-transformers')
embeddings = model.encode(sentences)
print(embeddings)

高級用法

不使用 sentence-transformers 庫，手動處理輸入並進行池化操作的示例：

from transformers import AutoTokenizer, AutoModel
import torch


#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('NetherlandsForensicInstitute/robbert-2022-dutch-sentence-transformers')
model = AutoModel.from_pretrained('NetherlandsForensicInstitute/robbert-2022-dutch-sentence-transformers')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, mean pooling.
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

🔧 技術細節

訓練參數

模型訓練時使用的參數如下：

數據加載器

MultiDatasetDataLoader.MultiDatasetDataLoader，長度為414262，參數如下：

{'batch_size': 1}

損失函數

sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss，參數如下：

{'scale': 20.0, 'similarity_fct': 'cos_sim'}

訓練方法參數

{
    "epochs": 1,
    "evaluation_steps": 50000,
    "evaluator": "sentence_transformers.evaluation.EmbeddingSimilarityEvaluator.EmbeddingSimilarityEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 500,
    "weight_decay": 0.01
}

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)