🚀 MiniLM-L6丹麦语重排器
这是一个轻量级(约2200万个参数)的丹麦语自然语言处理 sentence-transformers 模型,它接收两个句子作为输入,并输出一个相关性得分。因此,该模型可用于信息检索,例如,给定一个查询和候选匹配项,按相关性对候选项进行排序。
新版本已发布,在更多数据上进行了训练,其他方面与 KennethTM/MiniLM-L6-danish-reranker-v2 相同。
🚀 快速开始
本模型是用于丹麦语自然语言处理的轻量级模型,接收两个句子作为输入并输出相关性得分,可用于信息检索场景,对候选匹配项按相关性排序。最大序列长度为512个标记(两个段落均适用)。该模型并非从头开始预训练,而是基于 cross-encoder/ms-marco-MiniLM-L-6-v2 的英文版本,使用 丹麦语分词器 进行调整得到。它在从英语机器翻译为丹麦语的ELI5和SQUAD数据上进行了训练。
✨ 主要特性
- 轻量级:参数约2200万,便于使用和部署。
- 相关性评分:接收两个句子输入,输出相关性得分。
- 信息检索:可用于对候选匹配项按相关性进行排序。
📦 安装指南
文档未提及具体安装步骤,可参考 sentence-transformers
库的官方安装说明进行安装。
💻 使用示例
基础用法
使用 transformers
库调用模型:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model = AutoModelForSequenceClassification.from_pretrained('KennethTM/MiniLM-L6-danish-reranker')
tokenizer = AutoTokenizer.from_pretrained('KennethTM/MiniLM-L6-danish-reranker')
features = tokenizer(['Kører der cykler på vejen?', 'Kører der cykler på vejen?'], ['En panda løber på vejen.', 'En mand kører hurtigt forbi på cykel.'], padding=True, truncation=True, return_tensors="pt")
model.eval()
with torch.no_grad():
scores = model(**features).logits
print(scores)
高级用法
若安装了 SentenceTransformers 库,使用会更简便:
from sentence_transformers import CrossEncoder
model = CrossEncoder('KennethTM/MiniLM-L6-danish-reranker', max_length=512)
scores = model.predict([('Kører der cykler på vejen?', 'En panda løber på vejen.'), ('Kører der cykler på vejen?', 'En mand kører hurtigt forbi på cykel.')])
📚 详细文档
属性 |
详情 |
模型类型 |
基于 sentence-transformers 的丹麦语自然语言处理模型 |
训练数据 |
squad、eli5、sentence-transformers/embedding-training-data、KennethTM/squad_pairs_danish、KennethTM/eli5_question_answer_danish |
📄 许可证
本项目采用MIT许可证。