🚀 MQDD - 多模態問題重複檢測
本倉庫發佈了論文 MQDD – 軟件工程領域多模態問題重複檢測的預訓練 中所使用的訓練模型及其他支持材料。更多信息請查閱該論文。
論文中提及的 Stack Overflow 數據集(SOD)和 Stack Overflow 重複數據集(SODD)可從我們的 Stack Overflow 數據集倉庫 獲取。
若僅需獲取預訓練模型,請訪問 UWB-AIR/MQDD-pretrained。
🚀 快速開始
本倉庫圍繞軟件工程領域多模態問題重複檢測展開,提供了相關的訓練模型、數據集以及代碼實現,方便研究者和開發者進行重複問題檢測的研究和應用。
✨ 主要特性
- 發佈了用於軟件工程領域多模態問題重複檢測的預訓練模型。
- 提供了 Stack Overflow 數據集(SOD)和 Stack Overflow 重複數據集(SODD)。
- 發佈了經過微調的 MQDD 模型用於重複檢測任務。
💻 使用示例
基礎用法
可以使用以下代碼片段加載一個不帶重複檢測頭的獨立編碼器。這樣的模型可用於構建基於 Faiss 庫的搜索系統。
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("UWB-AIR/MQDD-duplicates")
model = AutoModel.from_pretrained("UWB-AIR/MQDD-duplicates")
高級用法
可以從我們的 GoogleDrive 文件夾 獲取完整雙塔模型的檢查點。要加載該模型,需要使用我們 GitHub 倉庫 中 models/MQDD_model.py
的模型實現。使用以下代碼來構建模型並加載其檢查點:
from MQDD_model import ClsHeadModelMQDD
model = ClsHeadModelMQDD("UWB-AIR/MQDD-duplicates")
ckpt = torch.load("model.pt", map_location="cpu")
model.load_state_dict(ckpt["model_state"])
📄 許可證
本作品採用知識共享署名 - 非商業性使用 - 相同方式共享 4.0 國際許可協議進行許可。請訪問 http://creativecommons.org/licenses/by-nc-sa/4.0/ 查看該許可協議的詳細信息。
📚 詳細文檔
如何引用 MQDD?
目前,請引用 Arxiv 論文:
@misc{https://doi.org/10.48550/arxiv.2203.14093,
doi = {10.48550/ARXIV.2203.14093},
url = {https://arxiv.org/abs/2203.14093},
author = {Pašek, Jan and Sido, Jakub and Konopík, Miloslav and Pražák, Ondřej},
title = {MQDD -- Pre-training of Multimodal Question Duplicity Detection for Software Engineering Domain},
publisher = {arXiv},
year = {2022},
copyright = {Creative Commons Attribution Non Commercial Share Alike 4.0 International}
}
微調後的 MQDD 模型
我們發佈了經過微調的 MQDD 模型用於重複檢測任務。該模型的架構遵循雙塔模型架構,如下圖所示:
