pd-bert开源复述检测模型 - 免费用于重复内容、问答及语义相似度分析

首页

Pd Bert

由 viswadarshan06 开发

基于BERT-base微调的复述检测模型，适用于重复内容检测、问答系统和语义相似度分析等场景。

文本分类

Transformers

英语开源协议:MIT #高召回复述识别 #多数据集融合 #语义相似度分析

下载量 23

发布时间 : 2/9/2025

模型简介

该模型通过微调BERT-base架构，专门用于识别句子对之间的复述关系，在多个基准数据集上表现出色，尤其擅长复杂句式中的复述检测。

模型特点

多数据集训练

融合MRPC、QQP、PAWS-X和PIT四个基准数据集，覆盖新闻、问答、对抗性测试等多种复述场景

高召回率设计

优化模型结构以优先保证复述关系的召回能力，适合需要高覆盖率的应用场景

领域适应性强

基础模型经过广泛领域数据训练，可通过微调快速适配医疗、法律等专业领域

模型能力

句子对语义相似度分析

重复问题检测

文本去重

问答系统增强

使用案例

客户支持

FAQ去重

自动识别用户提问库中的重复问题

减少人工审核工作量30%（基于论文推断）

内容管理

新闻聚合

识别不同来源的重复新闻报道

在MRPC测试集达到84.87%准确率

🚀 用于释义检测的微调BERT模型卡片

这是一个针对释义检测任务微调的BERT-base模型版本，它在四个基准数据集（MRPC、QQP、PAWS-X和PIT）上进行了训练。该模型适用于诸如重复内容检测、问答系统和语义相似度分析等应用场景。它具备强大的召回能力，即使在复杂句子结构中也能有效识别释义。

🚀 快速开始

要使用该模型，需安装transformers库，并按以下方式加载微调后的模型：

from transformers import AutoTokenizer, AutoModelForSequenceClassification

# Load the tokenizer and model
model_path = "viswadarshan06/pd-bert"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForSequenceClassification.from_pretrained(model_path)

# Encode sentence pairs
inputs = tokenizer("The car is fast.", "The vehicle moves quickly.", return_tensors="pt", padding=True, truncation=True)

# Get predictions
outputs = model(**inputs)
logits = outputs.logits
predicted_class = logits.argmax().item()
print("Paraphrase" if predicted_class == 1 else "Not a Paraphrase")

✨ 主要特性

应用广泛：可用于客户支持和常见问题解答中的重复问题识别、基于检索系统中的语义搜索以及文档去重和文本相似度应用。
可进一步微调：该模型可以在特定领域的释义数据集上进行进一步微调，适用于医疗、法律和金融等行业。

📦 安装指南

使用前需安装transformers库，可通过以下命令安装：

pip install transformers

📚 详细文档

模型来源

仓库：Hugging Face模型中心
研究论文：Comparative Insights into Modern Architectures for Paraphrase Detection（已被ICCIDS 2025接受）
演示：（部署后添加）

使用场景

直接使用

识别客户支持和常见问题解答中的重复问题。
改进基于检索系统中的语义搜索。
增强文档去重和文本相似度应用。

下游使用

该模型可以在特定领域的释义数据集上进行进一步微调，适用于医疗、法律和金融等行业。

适用范围外的使用

该模型是单语种的，仅在英文数据集上进行训练，对于多语言任务需要额外的微调。
可能难以处理习语表达或复杂的比喻性语言。

偏差、风险和局限性

已知局限性

高召回率但低精确率：模型倾向于过度识别释义，导致误报率增加。
上下文歧义：可能会误解需要深入上下文推理的句子。

建议

用户可以通过应用后处理技术或调整置信度阈值来降低误报率。

🔧 技术细节

训练详情

该模型使用四个数据集的组合进行训练：

MRPC：基于新闻的释义。
QQP：重复问题检测。
PAWS-X：用于鲁棒性测试的对抗性释义。
PIT：短文本释义数据集。

训练过程

分词器：BERT分词器
批量大小：16
优化器：AdamW
损失函数：交叉熵

训练超参数

学习率：2e-5
序列长度：
- MRPC：256
- QQP：336
- PIT：64
- PAWS-X：256

速度、大小、时间

使用的GPU：NVIDIA A100
总训练时间：约6小时
使用的计算单元：80

测试数据、因素和指标

测试数据

该模型在组合测试集上进行测试，并使用以下指标进行评估：

准确率
精确率
召回率
F1分数
运行时间

结果

BERT模型评估指标

模型	数据集	准确率 (%)	精确率 (%)	召回率 (%)	F1分数 (%)	运行时间 (秒)
BERT	MRPC验证集	88.24	88.37	95.34	91.72	1.41
BERT	MRPC测试集	84.87	85.84	92.50	89.04	5.77
BERT	QQP验证集	87.92	81.44	86.86	84.06	43.24
BERT	QQP测试集	88.14	82.49	86.56	84.47	43.51
BERT	PAWS-X验证集	91.90	87.57	94.67	90.98	6.73
BERT	PAWS-X测试集	92.60	88.69	95.92	92.16	6.82
BERT	PIT验证集	77.38	72.41	58.57	64.76	4.34
BERT	PIT测试集	86.16	64.11	76.57	69.79	0.98

总结

这个基于BERT的释义检测模型展示了强大的召回能力，在各种语言结构中识别释义方面非常有效。虽然它倾向于过度预测释义，但它仍然是语义相似度任务的一个强大基线，并且可以针对特定领域的应用进行进一步微调。

引用

如果您使用此模型，请引用：

@inproceedings{viswadarshan2025paraphrase,
   title={Comparative Insights into Modern Architectures for Paraphrase Detection},
   author={Viswadarshan R R, Viswaa Selvam S, Felcia Lilian J, Mahalakshmi S},
   booktitle={International Conference on Computational Intelligence, Data Science, and Security (ICCIDS)},
   year={2025},
   publisher={IFIP AICT Series by Springer}
}

📄 许可证

本项目采用MIT许可证。

模型卡片联系方式

📧 邮箱：viswadarshanrramiya@gmail.com 🔗 GitHub：Viswadarshan R R

信息表格

属性	详情
模型类型	基于Transformer的句子对分类器
训练数据	MRPC、QQP、PAWS-X、PIT
微调基础模型	bert-base-cased
库名称	transformers
评估指标	准确率、F1分数
语言	英文