開源Splade-disco-human模型 - 優化多輪對話搜索性能，實現高效對話式搜索

首頁

Splade Disco Human

由slupart開發

基於SPLADE++模型適配的對話式搜索版本，通過QReCC數據集微調查詢編碼器，優化多輪對話式搜索性能。

文本嵌入

PyTorch

英語#對話式搜索 #多輪檢索優化 #查詢擴展

下載量 22

發布時間 : 4/17/2025

模型概述

該模型是SPLADE++的對話式搜索適配版本，保留了原始文檔編碼器，並在QReCC數據集上微調了查詢編碼器，專為多輪對話式搜索設計。通過人類改寫文本的知識蒸餾，模型能更好地捕捉對話查詢的語義。

模型特點

對話式搜索優化

在QReCC數據集上微調查詢編碼器，專門優化多輪對話式搜索性能。

知識蒸餾

通過人類改寫文本的知識蒸餾，使模型能更好地捕捉對話查詢的語義。

非對稱架構

採用SPLADE的非對稱架構，查詢與文檔表徵使用獨立模型。

模型能力

多輪對話式搜索

查詢擴展

文檔擴展

段落檢索

使用案例

信息檢索

多輪對話搜索系統

用於構建能夠理解對話上下文並返回相關文檔的搜索系統。

優化後的查詢編碼器能更好地理解對話中的語義變化。

智能客服

應用於客服系統中，幫助理解用戶的多輪問題並提供準確答案。

通過對話歷史理解用戶意圖，提高回答準確性。

🚀 DiSCo：用於對話搜索中高效稀疏檢索的大語言模型知識蒸餾

DiSCo模型是對原始SPLADE++ (CoCondenser - EnsembleDistil)模型進行對話搜索適配後的成果。它保留了原始的文檔編碼器，並在QReCC（一個專為多輪對話搜索設計的數據集）上對查詢編碼器進行微調。通過從人工改寫中進行知識蒸餾的方式進行訓練，使模型能夠更好地捕捉對話查詢的語義信息。更多詳細內容請參考原論文：

DiSCo SPLADE - SIGIR 2025全文：https://arxiv.org/abs/2410.14609

⚠️ 重要提示

這是查詢編碼器。在進行推理時，你還需要對應的文檔編碼器，該文檔編碼器與原始的SPLADE++檢查點保持一致。SPLADE可以使用非對稱架構：為查詢和文檔表示使用單獨的模型。

🚀 快速開始

本模型是對原始 SPLADE++ (CoCondenser-EnsembleDistil) 模型進行對話搜索適配後的版本。它保留了原始的文檔編碼器，並在專為多輪對話搜索設計的 QReCC 數據集上對查詢編碼器進行微調。

訓練通過從人工改寫中進行知識蒸餾來完成，使模型能更好地捕捉對話查詢的語義。更多詳細信息，請參閱原論文：

DiSCo SPLADE - SIGIR 2025 完整論文：https://arxiv.org/abs/2410.14609

✨ 主要特性

基於原始的 SPLADE++ (CoCondenser-EnsembleDistil) 模型進行對話搜索適配。
保留原始文檔編碼器，在 QReCC 數據集上微調查詢編碼器。
通過從人工改寫中進行知識蒸餾，更好地捕捉對話查詢的語義。

📦 安裝指南

暫未提及安裝相關內容，跳過此章節。

💻 使用示例

基礎用法

請參考 DiSCo 的 GitHub 倉庫以獲取完整的使用說明 [github]。

以下是一個對對話進行編碼的示例腳本：

輸入格式是對話歷史的扁平化版本。 q_n [SEP] a_{n - 1} [SEP] q_{n - 1} [SEP] ... [SEP] a_0 [SEP] q_0

from transformers import AutoTokenizer, AutoModelForMaskedLM
import torch.nn.functional as F
import torch


model = AutoModelForMaskedLM.from_pretrained("slupart/splade-disco-human")
tokenizer = AutoTokenizer.from_pretrained("slupart/splade-disco-human")
model.eval()

conv = [
    ("what's the weather like today?", "it's sunny."),
    ("should I wear sunscreen?", "yes, UV index is high."),
    ("do I need sunglasses?", "definitely."),
    ("where can I buy sunglasses?", "try the optician nearby."),
    ("how much do they cost?", None)
]

parts = [conv[-1][0]] + [x for q, a in reversed(conv[:-1]) for x in (a, q) if x]
text = " [SEP] ".join(parts)

inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
    logits = model(**inputs).logits
sparse = F.relu(logits).max(1).values.squeeze(0)

scores = [(tokenizer.convert_ids_to_tokens([i.item()])[0], sparse[i].item())
          for i in torch.nonzero(sparse).squeeze(1)]
for token, score in sorted(scores, key=lambda x: -x[1]):
    print(f"Token: {token:15} | Score: {score:.4f}")

📚 詳細文檔

暫未提及詳細文檔相關內容，跳過此章節。

🔧 技術細節

暫未提及技術細節相關內容，跳過此章節。

📄 許可證

本模型使用的許可證為 CC BY-NC-SA 4.0。

📖 引用

如果您使用了我們的檢查點，請引用我們的工作：

@article{lupart2024disco,
  title={DiSCo Meets LLMs: A Unified Approach for Sparse Retrieval and Contextual Distillation in Conversational Search},
  author={Lupart, Simon and Aliannejadi, Mohammad and Kanoulas, Evangelos},
  journal={arXiv preprint arXiv:2410.14609},
  year={2024}
}