🚀 BART_no_extraction_V2 モデルカード
このモデルは、長い法的文書の要約に特化したモデルです。多段階の要約アプローチを用いており、抽出型要約と生成型要約を組み合わせることで、高品質な要約を生成します。
🚀 クイックスタート
このモデルは、長い法的文書の要約に直接使用できます。ただし、抽出型要約ツールを使って原文を圧縮した後に入力することを推奨します。
✨ 主な機能
- 多段階要約アプローチ:抽出型要約と生成型要約を組み合わせることで、長い法的文書の要約を効率的に行います。
- 高精度:ROUGE、BERTScore、BARTScoreなどの複数の評価指標で高いスコアを達成しています。
📦 インストール
Huggingfaceのパイプラインを使用する場合は、以下のようにインストールできます。
pip install bert-extractive-summarizer
💻 使用例
基本的な使用法
from summarizer import Summarizer
from transformers import pipeline
extractive_model = Summarizer()
text = 'Original document text to be summarized'
extractive_summary = Summarizer(text)
abstractive_model = pipeline('summarization', model = 'MikaSie/BART_no_extraction_V2', tokenizer = 'MikaSie/BART_no_extraction_V2')
result = pipeline(extractive_summary)
高度な使用法
より詳細な実装方法については、論文レポートを参照してください。
📚 ドキュメント
モデル詳細
モデル説明
このモデルは、BARTをファインチューニングしたバージョンです。長い法的文書の要約に多段階アプローチを用いています。再生可能エネルギー分野の多くの決定は規制に大きく依存していますが、これらの規制はしばしば長く複雑です。提案されたアーキテクチャは、最初に抽出型要約ステップを用いて原文を圧縮し、その後生成型要約モデルで最終的な要約を作成します。このファインチューニングされた生成型モデルは、抽出型要約によって前処理されたデータセットで学習されています。
このモデルが使用するデータセットは、EUR-lex-sum データセットです。評価指標は、このモデルカードのメタデータに記載されています。
- 開発者: Mika Sie
- 資金提供元: University Utrecht & Power2X
- 言語 (NLP): 英語
- ファインチューニング元モデル: BART
モデルソース
- リポジトリ: https://github.com/MikaSie/Thesis
- 論文: PAPER_LINK
- Streamlitデモ: STREAMLIT_LINK
使用方法
直接使用
このモデルは、長い法的文書の要約に直接使用できます。ただし、抽出型要約ツールを使って原文を圧縮した後に入力することを推奨します。
範囲外の使用
抽出型要約ステップを省略してこのモデルを使用すると、最適な結果が得られない場合があります。モデル説明に記載されている多段階要約アプローチに従うことをおすすめします。
バイアス、リスク、および制限事項
バイアス
他の言語モデルと同様に、このモデルは学習データに含まれるバイアスを引き継ぐ可能性があります。原文に潜在的なバイアスがあることを認識し、生成された要約を批判的に評価することが重要です。
リスク
- このモデルは、特に複雑な法的文書に対して、正確または包括的な要約を生成できない場合があります。
- このモデルは、真実性のある情報を生成しない場合があります。
制限事項
- このモデルは、過度に抽象的な要約を生成するか、重要な詳細を捉えられない場合があります。
- このモデルの性能は、入力として使用する抽出型要約の品質と関連性によって異なる場合があります。
推奨事項
- 重要なタスクに生成された要約を使用する前に、慎重にレビューして検証してください。
- 要約の正確性と完全性を確保するために、人間のレビューや他の検証メカニズムと併用することを検討してください。
- 生成型モデルに最適な入力を見つけるために、異なる抽出型要約モデルや手法を試してみてください。
- このモデルの性能を向上させ、制限事項を解消するために、フィードバックを提供し、研究開発に貢献してください。
- この内容に基づいて行われるすべての行動は、自己責任で行ってください。
🔧 技術詳細
プロパティ |
詳細 |
モデルタイプ |
BART |
学習データ |
dennlinger/eur-lex-sum |
評価指標 |
値 |
ROUGE-1 |
0.45896475125147945 |
ROUGE-2 |
0.19536601211197768 |
ROUGE-L |
0.21743714120418117 |
BERTScore |
0.8702187434921052 |
BARTScore |
-3.4154099993527196 |
BLANC |
0.10292031328498923 |
📄 ライセンス
原文書にライセンス情報は記載されていません。