🚀 LexLM_Longformer_BART_fixed_V1 のモデルカード
このモデルは、長い法的文書の要約に特化したモデルです。多段階要約アプローチを用いており、抽出型要約と生成型要約を組み合わせることで、効果的な要約を行います。
🚀 クイックスタート
このモデルを使って長い法的文書を要約するには、まず抽出型要約ツールを使って原文書を圧縮し、その抽出型要約をこのモデルに入力します。
✨ 主な機能
- 長い法的文書の多段階要約が可能
- 抽出型要約と生成型要約を組み合わせたアプローチ
- 事前に抽出型要約されたデータセットで学習されている
📦 インストール
このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを実行してください。
pip install bert-extractive-summarizer
💻 使用例
基本的な使用法
from summarizer import Summarizer
from transformers import pipeline
extractive_model = Summarizer()
text = 'Original document text to be summarized'
extractive_summary = extractive_model(text)
abstractive_model = pipeline('summarization', model = 'MikaSie/LexLM_Longformer_BART_fixed_V1', tokenizer = 'MikaSie/LexLM_Longformer_BART_fixed_V1')
result = abstractive_model(extractive_summary)
📚 ドキュメント
モデルの詳細
モデルの説明
このモデルは、BARTをファインチューニングしたバージョンです。研究では、長い法的文書の多段階要約アプローチが採用されています。再生可能エネルギー分野の多くの決定は規制に大きく依存していますが、これらの規制はしばしば長く複雑です。提案されたアーキテクチャでは、まず抽出型要約ステップを1つ以上行って原文書を圧縮し、その後生成型要約モデルで最終的な要約を作成します。このファインチューニングされた生成型モデルは、LexLM_Longformerで固定比率で抽出型要約されたデータセットで学習されています。研究では、複数の抽出型 - 生成型モデルの組み合わせが使用されており、https://huggingface.co/MikaSie で確認できます。最適な結果を得るには、このモデルに抽出型要約を入力してください。
このモデルが使用するデータセットは EUR-lex-sum データセットです。評価指標はこのモデルカードのメタデータに記載されています。この論文は、ウトレヒト大学のMika Sieによる修士論文で、Power2xと共同で導入されました。詳細はPAPER_LINKで確認できます。
- 開発者: Mika Sie
- 資金提供元: ウトレヒト大学 & Power2X
- 言語 (NLP): 英語
- ファインチューニング元のモデル: BART
モデルのソース
- リポジトリ: https://github.com/MikaSie/Thesis
- 論文: PAPER_LINK
- Streamlitデモ: STREAMLIT_LINK
使用方法
直接使用
このモデルは、長い法的文書の要約に直接使用できます。ただし、このモデルに入力する前に、LexLM_Longformerなどの抽出型要約ツールを使って原文書を圧縮することをおすすめします。このモデルは抽出型要約と一緒に動作するように特別に設計されています。
想定外の使用
抽出型要約ステップを省略してこのモデルを使用すると、最適な結果が得られない場合があります。モデルの説明に記載されている提案された多段階要約アプローチに従うことをおすすめします。
バイアス、リスク、制限事項
バイアス
他の言語モデルと同様に、このモデルは学習データに含まれるバイアスを引き継ぐ可能性があります。原文書に潜在的なバイアスがあることを認識し、生成された要約を批判的に評価することが重要です。
リスク
- このモデルは、複雑な法的文書に対して、常に正確または包括的な要約を生成するとは限りません。
- このモデルは、真実性のある情報を生成しない可能性があります。
制限事項
- このモデルは、過度に抽象的な要約を生成したり、重要な詳細を捉えられないことがあります。
- このモデルの性能は、入力として使用する抽出型要約の品質と関連性によって異なる場合があります。
推奨事項
- 重要なタスクで生成された要約を使用する前に、慎重にレビューして検証してください。
- 要約の正確性と完全性を確保するために、人間のレビューや他の検証メカニズムと併用することを検討してください。
- 生成型モデルに最適な入力を見つけるために、異なる抽出型要約モデルや手法を試してみてください。
- このモデルの性能を向上させ、制限事項を解消するために、フィードバックを提供し、研究開発に貢献してください。
- このコンテンツに基づいて行われるすべての行動は、自己責任です。
🔧 技術詳細
属性 |
詳情 |
モデルタイプ |
BARTのファインチューニングバージョン |
学習データ |
EUR-lex-sum データセット |
評価指標
指標 |
値 |
ROUGE-1 |
0.42498553772738057 |
ROUGE-2 |
0.15839425914885624 |
ROUGE-L |
0.20413437189383524 |
BERTScore |
0.8658945946720059 |
BARTScore |
-3.6140887003040127 |
BLANC |
0.09585484599908967 |