sci-five-radsum23开源模型 - 免费生成放射学报告摘要，助力医疗信息提炼

首页

Sci Five Radsum23

由 chizhikchi 开发

基于SciFive-base-Pubmed_PMC微调的T5模型，专为放射学报告摘要生成任务设计，在MIMIC-III数据集上训练

文本生成

Transformers

英语#医学影像摘要生成 #临床T5模型 #放射学报告自动化

下载量 150

发布时间 : 5/2/2023

模型简介

该模型用于自动生成放射学报告的临床印象部分，能够从详细的放射学检查结果中提取关键信息并生成简洁摘要

模型特点

生物医学领域优化

基于SciFive模型额外训练20万步，专门优化了生物医学文献处理能力

多模态支持

整合七种不同模态和解剖结构，扩展了放射学报告处理的应用性

竞赛验证性能

在ACL 2023生物自然语言处理研讨会共享任务中获得第四名，F1-RadGraph分数33.96

模型能力

医学文本摘要生成

放射学报告关键信息提取

临床印象自动生成

使用案例

医疗辅助诊断

CT/MRI报告摘要

从详细的放射学检查报告中自动生成临床医生可快速理解的印象摘要

在MIMIC-III数据集上ROUGE-L得分32.32

急诊科快速诊断支持

帮助急诊医生快速获取复杂影像检查的关键发现

🚀 放射学报告印象部分生成器 🏥

本模型是西奈（SINAI）团队参加 2023 年 ACL 会议上生物自然语言处理（BioNLP）研讨会任务 1B：放射学报告摘要生成的成果。该任务旨在推动自动放射学报告摘要系统的发展，并通过在提供的数据中纳入七种不同的模态和解剖结构来拓展其适用性。我们提议利用“序列到序列”学习来自动生成放射学印象，这种学习方法借助了公开可用的预训练模型的能力，包括通用领域和生物医学领域特定的模型。本仓库提供了我们性能最佳的系统，该系统是对 Sci-Five base 进行微调得到的，Sci-Five base 是一个 T5 模型，为了在生物医学文献的背景下进行优化，额外训练了 200k 步。

✨ 主要特性

参与生物医学自然语言处理研讨会的放射学报告摘要生成任务，利用“序列到序列”学习自动生成放射学印象。
基于公开可用的预训练模型，包括通用领域和生物医学领域特定的模型进行微调。
提供性能最佳的系统，基于对 Sci-Five base 模型的微调。

📦 安装指南

文档未提供相关安装步骤，故跳过此章节。

💻 使用示例

文档未提供相关代码示例，故跳过此章节。

📚 详细文档

结果

官方评估结果证明，将通用领域系统应用于生物医学文献，对后续放射学报告摘要生成任务的微调有益。下表总结了该模型在官方评估中获得的官方分数。团队排名可在此处查看。

BLEU4	ROUGE-L	BERTscore	F1-RadGraph
17.38	32.32	55.04	33.96

系统描述论文及引用

详细描述系统的论文发表在第 22 届生物医学自然语言处理研讨会会议记录上。

BibTeX 引用：

@inproceedings{chizhikova-etal-2023-sinai,
    title = "{SINAI} at {R}ad{S}um23: Radiology Report Summarization Based on Domain-Specific Sequence-To-Sequence Transformer Model",
    author = "Chizhikova, Mariia  and
      Diaz-Galiano, Manuel  and
      Urena-Lopez, L. Alfonso  and
      Martin-Valdivia, M. Teresa",
    booktitle = "The 22nd Workshop on Biomedical Natural Language Processing and BioNLP Shared Tasks",
    month = jul,
    year = "2023",
    address = "Toronto, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2023.bionlp-1.53",
    pages = "530--534",
    abstract = "This paper covers participation of the SINAI team in the shared task 1B: Radiology Report Summarization at the BioNLP workshop held on ACL 2023. Our proposal follows a sequence-to-sequence approach which leverages pre-trained multilingual general domain and monolingual biomedical domain pre-trained language models. The best performing system based on domain-specific model reached 33.96 F1RadGraph score which is the fourth best result among the challenge participants. This model was made publicly available on HuggingFace. We also describe an attempt of Proximal Policy Optimization Reinforcement Learning that was made in order to improve the factual correctness measured with F1RadGraph but did not lead to satisfactory results.",
}