pd-robertオープンソース複述検出モデル - コンテンツ検出、質問応答、および意味類似度分析に適用

Home

Pd Robert

Developed by viswadarshan06

RoBERTa-baseをファインチューニングした言い換え検出モデルで、MRPC、QQP、PAWS-X、PITの4つのベンチマークデータセットで学習されており、重複コンテンツ検出、質問応答システム、意味的類似性分析に適しています。

テキスト分類

Transformers

Open Source License:Apache-2.0 #意味的類似性分析 #敵対的言い換え検出 #複数データセット統合学習

Downloads 357

Release Time : 2/9/2025

Model Overview

このモデルはTransformerベースの文ペア分類器で、英語テキスト内の言い換え関係を検出するために特別に設計されており、多様な言語構造で優れた性能を発揮します。

Model Features

複数データセット統合学習

MRPC、QQP、PAWS-X、PITの4つのベンチマークデータセットを統合し、ニュース、Q&A、敵対的テキストなど様々なシナリオをカバー

高い頑健性

PAWS-X敵対的データセットで優れた性能（F1スコア94.13%）

ドメイン適応性

医療、法律などのドメイン固有データに基づく追加ファインチューニングをサポート

Model Capabilities

重複質問検出

意味的類似性分析

文書重複排除

質問応答システム最適化

Use Cases

カスタマーサービス

FAQ重複質問識別

ユーザーの質問における意味的な重複を自動識別

手動審査作業の削減

コンテンツモデレーション

剽窃検出

言い換えられた剽窃コンテンツを識別

90%以上の精度

🚀 ファインチューニングされたRoBERTaによるパラフレーズ検出モデルカード

このモデルは、パラフレーズ検出のためにファインチューニングされたRoBERTa-baseのバージョンです。4つのベンチマークデータセット（MRPC、QQP、PAWS-X、およびPIT）で学習されています。このモデルは、重複コンテンツ検出、質問応答、および意味的類似性分析などのアプリケーションに適しており、様々な言語構造に対して高い性能を発揮します。

開発者: Viswadarshan R R
モデルタイプ: Transformerベースの文ペア分類器
言語: 英語
ファインチューニング元: FacebookAI/roberta-base

モデルのソース

リポジトリ: Hugging Face Model Hub
研究論文: Comparative Insights into Modern Architectures for Paraphrase Detection (ICCIDS 2025で受理)
デモ: (デプロイ時に追加予定)

🚀 クイックスタート

モデルを使用するには、transformersをインストールし、以下のようにファインチューニングされたモデルをロードします。

from transformers import AutoTokenizer, AutoModelForSequenceClassification

# トークナイザーとモデルをロード
model_path = "viswadarshan06/pd-robert"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForSequenceClassification.from_pretrained(model_path)

# 文ペアをエンコード
inputs = tokenizer("The car is fast.", "The vehicle moves quickly.", return_tensors="pt", padding=True, truncation=True)

# 予測を取得
outputs = model(**inputs)
logits = outputs.logits
predicted_class = logits.argmax().item()

print("Paraphrase" if predicted_class == 1 else "Not a Paraphrase")

✨ 主な機能

直接的な利用

FAQやカスタマーサポートにおける重複質問の識別。
情報検索システムにおける意味的検索の改善。
文書の重複排除とコンテンツモデレーションの強化。

下流の利用

このモデルは、特定ドメインのパラフレーズデータセット（例：医療、法律、または金融）でさらにファインチューニングすることができます。

想定外の利用

このモデルは英語のデータセットのみで学習されているため、多言語のパラフレーズ検出には適していません。
追加のファインチューニングなしでは、低リソース言語では性能が低下する可能性があります。

🔧 技術詳細

バイアス、リスク、および制限事項

既知の制限事項

慣用表現に苦戦する: このモデルは比喩的な言語におけるパラフレーズを検出するのが困難です。
文脈的な曖昧さ: 文が深い文脈的な推論を必要とする場合、失敗する可能性があります。

推奨事項

ユーザーは、実世界のアプリケーションでの汎化能力を向上させるために、追加の文化的および慣用的なデータセットでモデルをファインチューニングすることを推奨します。

学習詳細

このモデルは、4つのデータセットを組み合わせて学習されました。

MRPC: ニュースベースのパラフレーズ。
QQP: 重複質問の検出。
PAWS-X: ロバスト性テストのための敵対的パラフレーズ。
PIT: 短いテキストのパラフレーズデータセット。

学習手順

トークナイザー: RobertaTokenizer
バッチサイズ: 16
オプティマイザー: AdamW
損失関数: 交差エントロピー

学習ハイパーパラメータ

学習率: 2e-5
シーケンス長:
- MRPC: 256
- QQP: 336
- PIT: 64
- PAWS-X: 256

速度、サイズ、時間

使用したGPU: NVIDIA A100
総学習時間: ~6時間
使用したコンピュートユニット: 80

テストデータ、要因、および評価指標

テストデータ

このモデルは、結合されたテストセットでテストされ、以下の指標で評価されました。

正解率
適合率
再現率
F1スコア
実行時間

結果

RoBERTaモデルの評価指標

モデル	データセット	正解率 (%)	適合率 (%)	再現率 (%)	F1スコア (%)	実行時間 (秒)
RoBERTa	MRPC検証	89.22	89.56	95.34	92.36	5.08
RoBERTa	MRPCテスト	87.65	88.53	93.55	90.97	21.98
RoBERTa	QQP検証	89.17	84.38	86.48	85.42	8.32
RoBERTa	QQPテスト	89.36	85.14	86.56	85.84	19.44
RoBERTa	PAWS-X検証	94.75	92.58	95.48	94.01	7.78
RoBERTa	PAWS-Xテスト	94.60	92.82	95.48	94.13	7.88
RoBERTa	PIT検証	82.28	82.57	63.47	71.77	7.01
RoBERTa	PITテスト	90.45	84.67	66.29	74.35	1.47

要約

このRoBERTaベースのパラフレーズ検出モデルは、4つのベンチマークデータセット（MRPC、QQP、PAWS-X、およびPIT）でファインチューニングされており、様々なパラフレーズ構造に対して強力な性能を発揮します。このモデルは、文ペア間の意味的類似性を効果的に識別するため、意味的検索、重複コンテンツ検出、および質問応答システムなどのアプリケーションに適しています。

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

引用

このモデルを使用する場合は、以下を引用してください。

@inproceedings{viswadarshan2025paraphrase,
   title={Comparative Insights into Modern Architectures for Paraphrase Detection},
   author={Viswadarshan R R, Viswaa Selvam S, Felcia Lilian J, Mahalakshmi S},
   booktitle={International Conference on Computational Intelligence, Data Science, and Security (ICCIDS)},
   year={2025},
   publisher={IFIP AICT Series by Springer}
}

モデルカードの連絡先

📧 メール: viswadarshanrramiya@gmail.com

🔗 GitHub: Viswadarshan R R

モデル情報

属性	详情
モデルタイプ	Transformerベースの文ペア分類器
学習データ	MRPC、QQP、PAWS-X、PIT
評価指標	正解率、適合率、再現率、F1スコア、実行時間
ベースモデル	FacebookAI/roberta-base
ライブラリ名	transformers