🚀 MiniLM-L6丹麥語重排器
這是一個輕量級(約2200萬個參數)的丹麥語自然語言處理 sentence-transformers 模型,它接收兩個句子作為輸入,並輸出一個相關性得分。因此,該模型可用於信息檢索,例如,給定一個查詢和候選匹配項,按相關性對候選項進行排序。
新版本已發佈,在更多數據上進行了訓練,其他方面與 KennethTM/MiniLM-L6-danish-reranker-v2 相同。
🚀 快速開始
本模型是用於丹麥語自然語言處理的輕量級模型,接收兩個句子作為輸入並輸出相關性得分,可用於信息檢索場景,對候選匹配項按相關性排序。最大序列長度為512個標記(兩個段落均適用)。該模型並非從頭開始預訓練,而是基於 cross-encoder/ms-marco-MiniLM-L-6-v2 的英文版本,使用 丹麥語分詞器 進行調整得到。它在從英語機器翻譯為丹麥語的ELI5和SQUAD數據上進行了訓練。
✨ 主要特性
- 輕量級:參數約2200萬,便於使用和部署。
- 相關性評分:接收兩個句子輸入,輸出相關性得分。
- 信息檢索:可用於對候選匹配項按相關性進行排序。
📦 安裝指南
文檔未提及具體安裝步驟,可參考 sentence-transformers
庫的官方安裝說明進行安裝。
💻 使用示例
基礎用法
使用 transformers
庫調用模型:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model = AutoModelForSequenceClassification.from_pretrained('KennethTM/MiniLM-L6-danish-reranker')
tokenizer = AutoTokenizer.from_pretrained('KennethTM/MiniLM-L6-danish-reranker')
features = tokenizer(['Kører der cykler på vejen?', 'Kører der cykler på vejen?'], ['En panda løber på vejen.', 'En mand kører hurtigt forbi på cykel.'], padding=True, truncation=True, return_tensors="pt")
model.eval()
with torch.no_grad():
scores = model(**features).logits
print(scores)
高級用法
若安裝了 SentenceTransformers 庫,使用會更簡便:
from sentence_transformers import CrossEncoder
model = CrossEncoder('KennethTM/MiniLM-L6-danish-reranker', max_length=512)
scores = model.predict([('Kører der cykler på vejen?', 'En panda løber på vejen.'), ('Kører der cykler på vejen?', 'En mand kører hurtigt forbi på cykel.')])
📚 詳細文檔
屬性 |
詳情 |
模型類型 |
基於 sentence-transformers 的丹麥語自然語言處理模型 |
訓練數據 |
squad、eli5、sentence-transformers/embedding-training-data、KennethTM/squad_pairs_danish、KennethTM/eli5_question_answer_danish |
📄 許可證
本項目採用MIT許可證。