Pegasus-Large-Privacy-Policy-Summarization-V2オープンソースモデル - 長々としたプライバシーポリシーを無料で簡潔なバージョンに要約

ホーム

Pegasus Large Privacy Policy Summarization V2

AryehRotbergによって開発

GoogleのPegasus Largeモデルをファインチューニングし、冗長なプライバシーポリシー文書を簡潔なバージョンに要約するために特別に設計されています。

テキスト生成

Transformers

英語オープンソースライセンス:MIT #プライバシーポリシー要約 #法律文書濃縮 #ROUGE最適化

ダウンロード数 13

リリース時間 : 2/9/2025

モデル概要

このモデルはプライバシーポリシー文書とその対応する要約に対してファインチューニングされており、複雑な法律文書を読みやすい要約に濃縮することができ、コンプライアンス分析や法律文書処理に適しています。

モデル特徴

専門分野のファインチューニング

プライバシーポリシーテキストに特化して最適化されており、法律用語や複雑な条項をより適切に処理できます。

高品質な要約

ROUGE指標で良好なパフォーマンスを示し、一貫性があり情報豊富な要約を生成できます。

簡単な統合

シンプルなAPIインターフェースを提供し、既存システムに簡単に統合できます。

モデル能力

法律文書要約

プライバシーポリシー分析

文書濃縮

使用事例

法律コンプライアンス

プライバシーポリシーの迅速な理解

ユーザーが冗長なプライバシーポリシー条項を迅速に理解するのを支援します

簡潔で読みやすい要約を生成し、ROUGE-1スコア0.514を達成

コンプライアンス分析

企業のプライバシーポリシーコンプライアンスチェックを支援します

重要なプライバシー条項を識別し、審査効率を向上させます

ビジネスアプリケーション

利用規約要約

エンドユーザーに簡素化されたサービス条項説明を提供します

ユーザーエクスペリエンスと透明性を向上させます

🚀 Pegasus Large プライバシーポリシー要約 V2

Google Pegasus Largeモデルをプライバシーポリシー文書とそれに対応する要約でファインチューニングしたものです。長く複雑なプライバシーポリシーを簡潔で読みやすい要約にまとめることができます。

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	Transformerベースの抽象的要約モデル
アーキテクチャ	Google PEGASUS Large
ファインチューニングデータセット	プライバシーポリシー文書とそれに対応する要約の精選データセット
想定用途	長く複雑なプライバシーポリシーを簡潔で読みやすい要約にまとめる
制限事項	プライバシーポリシーの重要なニュアンス、法的な専門用語、または文脈依存の詳細を見落とす可能性があります

使用方法

直接使用

このモデルは、長いプライバシーポリシー文書を簡潔な要約にまとめるために使用できます。自動文書要約を必要とするアプリケーション、例えばコンプライアンス分析や法的文書処理などに設計されています。

下流使用

このモデルは、法的、ビジネス、または政府の政策文書に関連するドメイン固有の要約タスクにさらにファインチューニングすることができます。

範囲外の使用

法的アドバイス：このモデルは専門的な法的相談の代替品ではありません。
プライバシー関連以外のテキストの要約：プライバシーポリシー以外の一般的なテキストでは性能が低下する可能性があります。
重要な意思決定：人間の監督なしでは、重要な法的またはコンプライアンスの決定に使用しないでください。

バイアス、リスク、および制限事項

リスク

要約バイアス：モデルはプライバシーポリシーの特定の部分を過度に強調し、重要な情報を省略する可能性があります。
誤解：法的用語が一般人向けの要約で正確に表現されない可能性があります。
データの感度：不完全またはバイアスのあるデータセットに適用すると、要約結果が誤解を招く可能性があります。

推奨事項

特に法的およびコンプライアンスのユースケースでは、要約の人間による検証をお勧めします。
ユーザーはトレーニングデータに潜在的なバイアスがあることを認識すべきです。
ユーザー（直接および下流の両方）は、モデルのリスク、バイアス、および制限事項を認識すべきです。さらなる推奨事項については、より多くの情報が必要です。

💻 使用例

基本的な使用法

# Use the code below to get started with the model.
import torch
from transformers import PegasusTokenizer, PegasusForConditionalGeneration

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model_checkpoint = "AryehRotberg/Pegasus-Large-Privacy-Policy-Summarization-V2"
model = PegasusForConditionalGeneration.from_pretrained(model_checkpoint).to(device)
tokenizer = PegasusTokenizer.from_pretrained(model_checkpoint)

def summarize(text):
    inputs = tokenizer(
        f"Summarize the following document: {text}\nSummary: ",
        padding="max_length",
        truncation=True,
        max_length=1024,
        return_tensors="pt",
    ).to(device)

    outputs = model.generate(**inputs)

    return tokenizer.decode(outputs[0], skip_special_tokens=True)

🔧 技術詳細

トレーニングと評価データ

文書と要約は、ToS;DRウェブサイトのAPIから抽出されました。評価があり、包括的にレビューされたウェブサイトの文書のみが使用されました。

トレーニング手順

前処理

TextRankアルゴリズムを使用して、文書と要約の両方から上位n個の文を抽出しました。文書の最大文数は30、要約の最大文数は20です。BeautifulSoupライブラリを使用してHTMLテキストを解析し、正規表現を適用して余分な空白を削除しました。その後、データセットをトレーニングセットと検証セットに分割し、テストサイズは0.2、ランダムシードは42としました。