MiniLM-L6-danish-reranker開源排序模型 - 免費用於丹麥語信息檢索

首頁

Minilm L6 Danish Reranker

由KennethTM開發

這是一個輕量級丹麥語文本排序模型，基於英語MiniLM-L6模型適配而來，專門用於丹麥語信息檢索任務。

文本嵌入

Safetensors

其他開源協議:MIT #丹麥語文本排序 #輕量級重排模型 #信息檢索優化

下載量 160

發布時間 : 1/12/2024

模型概述

該模型接收兩個丹麥語句子作為輸入，輸出相關性分數，主要用於信息檢索場景中對候選結果進行排序。

模型特點

輕量級設計

僅約22M參數，適合資源有限的環境部署

丹麥語優化

使用丹麥語分詞器並針對丹麥語數據訓練

長文本支持

最大支持512個token的輸入長度

遷移學習

基於英語MiniLM-L6模型適配，而非從頭訓練

模型能力

文本相關性評分

信息檢索排序

問答系統支持

使用案例

信息檢索

搜索引擎結果排序

對搜索引擎返回的丹麥語結果進行相關性重排序

提高搜索結果的相關性

問答系統

在問答系統中對候選答案進行相關性評分

幫助系統選擇最相關的答案

🚀 MiniLM-L6丹麥語重排器

這是一個輕量級（約2200萬個參數）的丹麥語自然語言處理 sentence-transformers 模型，它接收兩個句子作為輸入，並輸出一個相關性得分。因此，該模型可用於信息檢索，例如，給定一個查詢和候選匹配項，按相關性對候選項進行排序。

新版本已發佈，在更多數據上進行了訓練，其他方面與 KennethTM/MiniLM-L6-danish-reranker-v2 相同。

🚀 快速開始

本模型是用於丹麥語自然語言處理的輕量級模型，接收兩個句子作為輸入並輸出相關性得分，可用於信息檢索場景，對候選匹配項按相關性排序。最大序列長度為512個標記（兩個段落均適用）。該模型並非從頭開始預訓練，而是基於 cross-encoder/ms-marco-MiniLM-L-6-v2 的英文版本，使用丹麥語分詞器進行調整得到。它在從英語機器翻譯為丹麥語的ELI5和SQUAD數據上進行了訓練。

✨ 主要特性

輕量級：參數約2200萬，便於使用和部署。
相關性評分：接收兩個句子輸入，輸出相關性得分。
信息檢索：可用於對候選匹配項按相關性進行排序。

📦 安裝指南

文檔未提及具體安裝步驟，可參考 sentence-transformers 庫的官方安裝說明進行安裝。

💻 使用示例

基礎用法

使用 transformers 庫調用模型：

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained('KennethTM/MiniLM-L6-danish-reranker')
tokenizer = AutoTokenizer.from_pretrained('KennethTM/MiniLM-L6-danish-reranker')
features = tokenizer(['Kører der cykler på vejen?', 'Kører der cykler på vejen?'], ['En panda løber på vejen.', 'En mand kører hurtigt forbi på cykel.'],  padding=True, truncation=True, return_tensors="pt")

model.eval()
with torch.no_grad():
    scores = model(**features).logits
    print(scores)

高級用法

若安裝了 SentenceTransformers 庫，使用會更簡便：

from sentence_transformers import CrossEncoder
model = CrossEncoder('KennethTM/MiniLM-L6-danish-reranker', max_length=512)
scores = model.predict([('Kører der cykler på vejen?', 'En panda løber på vejen.'), ('Kører der cykler på vejen?', 'En mand kører hurtigt forbi på cykel.')])

📚 詳細文檔

屬性	詳情
模型類型	基於 `sentence-transformers` 的丹麥語自然語言處理模型
訓練數據	squad、eli5、sentence-transformers/embedding-training-data、KennethTM/squad_pairs_danish、KennethTM/eli5_question_answer_danish