🚀 モデルカード: T5-base-summarization-claim-extractor
このモデルは、要約から原子的主張を抽出するために開発されたもので、要約の事実性評価に役立ちます。
🚀 クイックスタート
このモデルを使用するには、以下の手順に従ってください。まず、必要なライブラリをインポートし、トークナイザーとモデルをロードします。その後、要約文を入力として与え、モデルから主張を抽出します。
✨ 主な機能
- 要約から原子的主張を抽出する。
- 要約の事実性評価パイプラインの一部として機能する。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import T5ForConditionalGeneration, T5Tokenizer
tokenizer = T5Tokenizer.from_pretrained("Babelscape/t5-base-summarization-claim-extractor")
model = T5ForConditionalGeneration.from_pretrained("Babelscape/t5-base-summarization-claim-extractor")
summary = 'Simone Biles made a triumphant return to the Olympic stage at the Paris 2024 Games, competing in the women’s gymnastics qualifications. Overcoming a previous struggle with the “twisties” that led to her withdrawal from events at the Tokyo 2020 Olympics, Biles dazzled with strong performances on all apparatus, helping the U.S. team secure a commanding lead in the qualifications. Her routines showcased her resilience and skill, drawing enthusiastic support from a star-studded audience'
tok_input = tokenizer.batch_encode_plus([summary], return_tensors="pt", padding=True)
claims = model.generate(**tok_input)
claims = tokenizer.batch_decode(claims, skip_special_tokens=True)
⚠️ 重要提示
モデルは主張を単一の文字列として出力します。個々の主張を取得するには、文字列を文に分割する必要があります。
📚 ドキュメント
モデルの説明
モデル名: T5-base-summarization-claim-extractor
著者: Alessandro Scirè, Karim Ghonim, および Roberto Navigli
連絡先: scire@diag.uniroma1.it, scire@babelscape.com
言語: 英語
主な用途: 要約からの原子的主張の抽出
概要
T5-base-summarization-claim-extractorは、要約から原子的主張を抽出するタスクのために開発されたモデルです。このモデルはT5アーキテクチャに基づいており、主張抽出に特化して微調整されています。
このモデルは、Alessandro Scirè, Karim Ghonim, および Roberto Navigliによる論文 "FENICE: Factuality Evaluation of summarization based on Natural Language Inference and Claim Extraction" の研究の一部として導入されました。FENICEは、自然言語推論 (NLI) と主張抽出を利用して、要約の事実性を評価します。ArXiv版
想定される使用法
このモデルは以下の目的で設計されています。
- 要約から原子的主張を抽出する。
- 要約の事実性評価パイプラインのコンポーネントとして機能する。
トレーニング
トレーニングプロセスの詳細については、論文(https://aclanthology.org/2024.findings-acl.841.pdf) (セクション4.1) を参照してください。
性能
プロパティ |
詳細 |
モデル名 |
T5-base-summarization-claim-extractor |
著者 |
Alessandro Scirè, Karim Ghonim, および Roberto Navigli |
連絡先 |
scire@diag.uniroma1.it, scire@babelscape.com |
言語 |
英語 |
主な用途 |
要約からの原子的主張の抽出 |
モデルタイプ |
T5ベースのモデル |
トレーニングデータ |
論文に記載のデータセット |
モデル |
easinessP |
easinessR |
easinessF1 |
GPT-3.5 |
80.1 |
70.9 |
74.9 |
t5-base-summarization-claim-extractor |
79.2 |
68.8 |
73.4 |
表1: ROSE (Liu et al., 2023b) で評価された、LLMベースの主張抽出器であるGPT-3.5とt5-base-summarization-claim-extractorのEasiness Precision (easinessP)、Recall (easinessR)、およびF1スコア (easinessF1) の結果。
モデルの性能と使用されたメトリクスの詳細については、論文 (セクション4.1) を参照してください。
メインリポジトリ
FENICEに関する詳細は、GitHubリポジトリをチェックしてください。
Babelscape/FENICE
引用
このモデルをあなたの研究で使用する場合は、以下の論文を引用してください。
@inproceedings{scire-etal-2024-fenice,
title = "{FENICE}: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction",
author = "Scir{\`e}, Alessandro and Ghonim, Karim and Navigli, Roberto",
editor = "Ku, Lun-Wei and Martins, Andre and Srikumar, Vivek",
booktitle = "Findings of the Association for Computational Linguistics ACL 2024",
month = aug,
year = "2024",
address = "Bangkok, Thailand and virtual meeting",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.findings-acl.841",
pages = "14148--14161",
}
制限事項
- このモデルは要約からの主張抽出に特化しており、他のタイプのテキストでは性能が低下する可能性があります。
- このモデルは現在英語のみで利用可能であり、他の言語には汎化しにくい可能性があります。
倫理的な考慮事項
ユーザーは、このモデルが事実性を評価できる主張を抽出する一方で、それらの主張の真実性を判断するものではないことを認識すべきです。したがって、要約の信頼性を評価する際には、他のツールや人的判断と併用する必要があります。
謝辞
この研究は、BabelscapeとSapienza NLPの支援によって可能になりました。
📄 ライセンス
このモデルは cc-by-nc-sa-4.0 ライセンスの下で提供されています。