MiniLM-L6-danish-reranker开源排序模型 - 免费用于丹麦语信息检索

首页

Minilm L6 Danish Reranker

由 KennethTM 开发

这是一个轻量级丹麦语文本排序模型，基于英语MiniLM-L6模型适配而来，专门用于丹麦语信息检索任务。

文本嵌入

Safetensors

其他开源协议:MIT #丹麦语文本排序 #轻量级重排模型 #信息检索优化

下载量 160

发布时间 : 1/12/2024

模型简介

该模型接收两个丹麦语句子作为输入，输出相关性分数，主要用于信息检索场景中对候选结果进行排序。

模型特点

轻量级设计

仅约22M参数，适合资源有限的环境部署

丹麦语优化

使用丹麦语分词器并针对丹麦语数据训练

长文本支持

最大支持512个token的输入长度

迁移学习

基于英语MiniLM-L6模型适配，而非从头训练

模型能力

文本相关性评分

信息检索排序

问答系统支持

使用案例

信息检索

搜索引擎结果排序

对搜索引擎返回的丹麦语结果进行相关性重排序

提高搜索结果的相关性

问答系统

在问答系统中对候选答案进行相关性评分

帮助系统选择最相关的答案

🚀 MiniLM-L6丹麦语重排器

这是一个轻量级（约2200万个参数）的丹麦语自然语言处理 sentence-transformers 模型，它接收两个句子作为输入，并输出一个相关性得分。因此，该模型可用于信息检索，例如，给定一个查询和候选匹配项，按相关性对候选项进行排序。

新版本已发布，在更多数据上进行了训练，其他方面与 KennethTM/MiniLM-L6-danish-reranker-v2 相同。

🚀 快速开始

本模型是用于丹麦语自然语言处理的轻量级模型，接收两个句子作为输入并输出相关性得分，可用于信息检索场景，对候选匹配项按相关性排序。最大序列长度为512个标记（两个段落均适用）。该模型并非从头开始预训练，而是基于 cross-encoder/ms-marco-MiniLM-L-6-v2 的英文版本，使用丹麦语分词器进行调整得到。它在从英语机器翻译为丹麦语的ELI5和SQUAD数据上进行了训练。

✨ 主要特性

轻量级：参数约2200万，便于使用和部署。
相关性评分：接收两个句子输入，输出相关性得分。
信息检索：可用于对候选匹配项按相关性进行排序。

📦 安装指南

文档未提及具体安装步骤，可参考 sentence-transformers 库的官方安装说明进行安装。

💻 使用示例

基础用法

使用 transformers 库调用模型：

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained('KennethTM/MiniLM-L6-danish-reranker')
tokenizer = AutoTokenizer.from_pretrained('KennethTM/MiniLM-L6-danish-reranker')
features = tokenizer(['Kører der cykler på vejen?', 'Kører der cykler på vejen?'], ['En panda løber på vejen.', 'En mand kører hurtigt forbi på cykel.'],  padding=True, truncation=True, return_tensors="pt")

model.eval()
with torch.no_grad():
    scores = model(**features).logits
    print(scores)

高级用法

若安装了 SentenceTransformers 库，使用会更简便：

from sentence_transformers import CrossEncoder
model = CrossEncoder('KennethTM/MiniLM-L6-danish-reranker', max_length=512)
scores = model.predict([('Kører der cykler på vejen?', 'En panda løber på vejen.'), ('Kører der cykler på vejen?', 'En mand kører hurtigt forbi på cykel.')])

📚 详细文档

属性	详情
模型类型	基于 `sentence-transformers` 的丹麦语自然语言处理模型
训练数据	squad、eli5、sentence-transformers/embedding-training-data、KennethTM/squad_pairs_danish、KennethTM/eli5_question_answer_danish