t5-base-summarization-claim-extractor开源模型 - 从摘要文本精准提取原子声明

首页

T5 Base Summarization Claim Extractor

由 Babelscape 开发

基于T5架构的模型，专门用于从摘要文本中提取原子声明，是摘要事实性评估流程的关键组件。

文本生成

Transformers

英语#摘要声明提取 #原子声明识别 #事实性评估组件

下载量 666.36k

发布时间 : 6/27/2024

模型简介

该模型通过微调T5架构实现，专注于从摘要中提取可验证的原子声明，支持摘要事实性评估任务。

模型特点

原子声明提取

能够从复杂摘要中精确识别和提取独立的可验证声明

事实性评估支持

作为FENICE框架的核心组件，为摘要事实性评估提供基础支持

高性能表现

在ROSE数据集上达到与GPT-3.5相当的F1分数（73.4）

模型能力

文本理解

关键信息提取

结构化输出生成

使用案例

新闻摘要分析

科技新闻事实核查

从科技新闻摘要中提取关键声明，支持后续事实核查

可准确提取技术规格、性能声明等关键信息

学术研究支持

论文摘要分析

提取学术论文摘要中的核心研究声明

帮助研究人员快速识别论文关键贡献

🚀 模型卡片：T5-base-summarization-claim-extractor

本模型主要用于从摘要中提取原子声明，在摘要事实性评估等相关任务中具有重要价值。

🚀 快速开始

示例代码

from transformers import T5ForConditionalGeneration, T5Tokenizer

tokenizer = T5Tokenizer.from_pretrained("Babelscape/t5-base-summarization-claim-extractor")
model = T5ForConditionalGeneration.from_pretrained("Babelscape/t5-base-summarization-claim-extractor")
summary = 'Simone Biles made a triumphant return to the Olympic stage at the Paris 2024 Games, competing in the women’s gymnastics qualifications. Overcoming a previous struggle with the “twisties” that led to her withdrawal from events at the Tokyo 2020 Olympics, Biles dazzled with strong performances on all apparatus, helping the U.S. team secure a commanding lead in the qualifications. Her routines showcased her resilience and skill, drawing enthusiastic support from a star-studded audience'

tok_input = tokenizer.batch_encode_plus([summary], return_tensors="pt", padding=True)
claims = model.generate(**tok_input)
claims = tokenizer.batch_decode(claims, skip_special_tokens=True)

注意：模型以单个字符串形式输出声明。请记得将字符串拆分为句子，以提取单个声明。

✨ 主要特性

模型描述

模型名称：T5-base-summarization-claim-extractor
作者：Alessandro Scirè、Karim Ghonim 和 Roberto Navigli
联系方式：scire@diag.uniroma1.it, scire@babelscape.com
语言：英语
主要用途：从摘要中提取原子声明

概述

T5-base-summarization-claim-extractor 是为从摘要中提取原子声明而开发的模型。该模型基于 T5 架构，并针对声明提取任务进行了微调。

此模型是论文 "FENICE: Factuality Evaluation of summarization based on Natural Language Inference and Claim Extraction" by Alessandro Scirè, Karim Ghonim, and Roberto Navigli. 中研究的一部分。FENICE 利用自然语言推理（NLI）和声明提取来评估摘要的事实性。ArXiv 版本。

预期用途

从摘要中提取原子声明。
作为摘要事实性评估管道的一个组件。

训练

有关训练过程的详细信息，请查看论文(https://aclanthology.org/2024.findings-acl.841.pdf)（第 4.1 节）。

性能

属性	详情
模型类型	T5-base-summarization-claim-extractor
训练数据	详情见论文(https://aclanthology.org/2024.findings-acl.841.pdf) 第 4.1 节

模型	easiness_P	easiness_R	easiness_F1
GPT-3.5	80.1	70.9	74.9
t5-base-summarization-claim-extractor	79.2	68.8	73.4

表 1：基于大语言模型（LLM）的声明提取器，即 GPT-3.5 和 t5-base-summarization-claim-extractor，在 ROSE (Liu et al., 2023b) 上评估的简易精度（easiness_P）、召回率（easiness_R）和 F1 分数（easiness_F1）结果。

有关模型性能和所使用指标的更多详细信息，请参阅论文（第 4.1 节）。

主要仓库

有关 FENICE 的更多详细信息，请查看 GitHub 仓库：Babelscape/FENICE

引用

如果您在工作中使用此模型，请引用以下论文：


@inproceedings{scire-etal-2024-fenice,
    title = "{FENICE}: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction",
    author = "Scir{\`e}, Alessandro and Ghonim, Karim and Navigli, Roberto",
    editor = "Ku, Lun-Wei  and Martins, Andre and Srikumar, Vivek",
    booktitle = "Findings of the Association for Computational Linguistics ACL 2024",
    month = aug,
    year = "2024",
    address = "Bangkok, Thailand and virtual meeting",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2024.findings-acl.841",
    pages = "14148--14161",
}