pd-bert開源複述檢測模型 - 免費用於重複內容、問答及語義相似度分析

首頁

Pd Bert

由viswadarshan06開發

基於BERT-base微調的複述檢測模型，適用於重複內容檢測、問答系統和語義相似度分析等場景。

文本分類

Transformers

英語開源協議:MIT #高召回複述識別 #多數據集融合 #語義相似度分析

下載量 23

發布時間 : 2/9/2025

模型概述

該模型通過微調BERT-base架構，專門用於識別句子對之間的複述關係，在多個基準數據集上表現出色，尤其擅長複雜句式中的複述檢測。

模型特點

多數據集訓練

融合MRPC、QQP、PAWS-X和PIT四個基準數據集，覆蓋新聞、問答、對抗性測試等多種複述場景

高召回率設計

優化模型結構以優先保證複述關係的召回能力，適合需要高覆蓋率的應用場景

領域適應性強

基礎模型經過廣泛領域數據訓練，可通過微調快速適配醫療、法律等專業領域

模型能力

句子對語義相似度分析

重複問題檢測

文本去重

問答系統增強

使用案例

客戶支持

FAQ去重

自動識別用戶提問庫中的重複問題

減少人工審核工作量30%（基於論文推斷）

內容管理

新聞聚合

識別不同來源的重複新聞報道

在MRPC測試集達到84.87%準確率

🚀 用於釋義檢測的微調BERT模型卡片

這是一個針對釋義檢測任務微調的BERT-base模型版本，它在四個基準數據集（MRPC、QQP、PAWS-X和PIT）上進行了訓練。該模型適用於諸如重複內容檢測、問答系統和語義相似度分析等應用場景。它具備強大的召回能力，即使在複雜句子結構中也能有效識別釋義。

🚀 快速開始

要使用該模型，需安裝transformers庫，並按以下方式加載微調後的模型：

from transformers import AutoTokenizer, AutoModelForSequenceClassification

# Load the tokenizer and model
model_path = "viswadarshan06/pd-bert"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForSequenceClassification.from_pretrained(model_path)

# Encode sentence pairs
inputs = tokenizer("The car is fast.", "The vehicle moves quickly.", return_tensors="pt", padding=True, truncation=True)

# Get predictions
outputs = model(**inputs)
logits = outputs.logits
predicted_class = logits.argmax().item()
print("Paraphrase" if predicted_class == 1 else "Not a Paraphrase")

✨ 主要特性

應用廣泛：可用於客戶支持和常見問題解答中的重複問題識別、基於檢索系統中的語義搜索以及文檔去重和文本相似度應用。
可進一步微調：該模型可以在特定領域的釋義數據集上進行進一步微調，適用於醫療、法律和金融等行業。

📦 安裝指南

使用前需安裝transformers庫，可通過以下命令安裝：

pip install transformers

📚 詳細文檔

模型來源

倉庫：Hugging Face模型中心
研究論文：Comparative Insights into Modern Architectures for Paraphrase Detection（已被ICCIDS 2025接受）
演示：（部署後添加）

使用場景

直接使用

識別客戶支持和常見問題解答中的重複問題。
改進基於檢索系統中的語義搜索。
增強文檔去重和文本相似度應用。

下游使用

該模型可以在特定領域的釋義數據集上進行進一步微調，適用於醫療、法律和金融等行業。

適用範圍外的使用

該模型是單語種的，僅在英文數據集上進行訓練，對於多語言任務需要額外的微調。
可能難以處理習語表達或複雜的比喻性語言。

偏差、風險和侷限性

已知侷限性

高召回率但低精確率：模型傾向於過度識別釋義，導致誤報率增加。
上下文歧義：可能會誤解需要深入上下文推理的句子。

建議

用戶可以通過應用後處理技術或調整置信度閾值來降低誤報率。

🔧 技術細節

訓練詳情

該模型使用四個數據集的組合進行訓練：

MRPC：基於新聞的釋義。
QQP：重複問題檢測。
PAWS-X：用於魯棒性測試的對抗性釋義。
PIT：短文本釋義數據集。

訓練過程

分詞器：BERT分詞器
批量大小：16
優化器：AdamW
損失函數：交叉熵

訓練超參數

學習率：2e-5
序列長度：
- MRPC：256
- QQP：336
- PIT：64
- PAWS-X：256

速度、大小、時間

使用的GPU：NVIDIA A100
總訓練時間：約6小時
使用的計算單元：80

測試數據、因素和指標

測試數據

該模型在組合測試集上進行測試，並使用以下指標進行評估：

準確率
精確率
召回率
F1分數
運行時間

結果

BERT模型評估指標

模型	數據集	準確率 (%)	精確率 (%)	召回率 (%)	F1分數 (%)	運行時間 (秒)
BERT	MRPC驗證集	88.24	88.37	95.34	91.72	1.41
BERT	MRPC測試集	84.87	85.84	92.50	89.04	5.77
BERT	QQP驗證集	87.92	81.44	86.86	84.06	43.24
BERT	QQP測試集	88.14	82.49	86.56	84.47	43.51
BERT	PAWS-X驗證集	91.90	87.57	94.67	90.98	6.73
BERT	PAWS-X測試集	92.60	88.69	95.92	92.16	6.82
BERT	PIT驗證集	77.38	72.41	58.57	64.76	4.34
BERT	PIT測試集	86.16	64.11	76.57	69.79	0.98

總結

這個基於BERT的釋義檢測模型展示了強大的召回能力，在各種語言結構中識別釋義方面非常有效。雖然它傾向於過度預測釋義，但它仍然是語義相似度任務的一個強大基線，並且可以針對特定領域的應用進行進一步微調。

引用

如果您使用此模型，請引用：

@inproceedings{viswadarshan2025paraphrase,
   title={Comparative Insights into Modern Architectures for Paraphrase Detection},
   author={Viswadarshan R R, Viswaa Selvam S, Felcia Lilian J, Mahalakshmi S},
   booktitle={International Conference on Computational Intelligence, Data Science, and Security (ICCIDS)},
   year={2025},
   publisher={IFIP AICT Series by Springer}
}

📄 許可證

本項目採用MIT許可證。

模型卡片聯繫方式

📧 郵箱：viswadarshanrramiya@gmail.com 🔗 GitHub：Viswadarshan R R

信息表格

屬性	詳情
模型類型	基於Transformer的句子對分類器
訓練數據	MRPC、QQP、PAWS-X、PIT
微調基礎模型	bert-base-cased
庫名稱	transformers
評估指標	準確率、F1分數
語言	英文