arxiv - summarization开源科研论文摘要生成模型

首页

Arxiv Summarization

由 Talina06 开发

基于google/flan-t5-small微调的科研论文摘要生成模型，专为arXiv论文优化

文本生成

Safetensors

英语开源协议:Apache-2.0 #科研论文摘要 #arXiv优化 #T5微调

下载量 56

发布时间 : 3/12/2025

模型简介

该模型用于从长篇研究论文生成精简摘要，特别适合科研论文的摘要生成任务

模型特点

科研论文优化

专门针对arXiv科研论文内容进行优化，能更好理解学术术语和论文结构

高效摘要生成

能够从长篇研究论文中提取关键信息生成简洁摘要

基于FLAN-T5

建立在google/flan-t5-small基础上，具备良好的文本理解和生成能力

模型能力

科研论文摘要生成

学术文本理解

关键信息提取

使用案例

学术研究

论文摘要自动生成

为研究人员自动生成论文摘要，节省时间

生成简洁准确的论文摘要

文献综述辅助

帮助快速理解大量论文内容

提高文献阅读效率

🚀 arxiv-summarization

本模型是基于数据集armanc/scientific_papers（arxiv）对google/flan-t5-small进行微调后的版本。它针对科学摘要的总结进行了优化。

🚀 快速开始

本模型可用于生成较长研究论文的简短摘要。以下是使用示例：

from transformers import T5ForConditionalGeneration, T5Tokenizer

model = T5ForConditionalGeneration.from_pretrained("Talina06/arxiv-summarization")
tokenizer = T5Tokenizer.from_pretrained("Talina06/arxiv-summarization")

text = "Summarize: Deep learning is being used to advance medical research, particularly in cancer detection."
inputs = tokenizer(text, return_tensors="pt")
summary_ids = model.generate(**inputs)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print("Generated Summary:", summary)

✨ 主要特性

基于google/flan-t5-small模型进行微调。
以Arxiv研究论文作为训练数据，专注于文本摘要生成。
可有效生成较长研究论文的简短摘要。

📦 安装指南

文档未提及具体安装步骤，可参考transformers库的安装方式，使用以下命令安装：

pip install transformers

💻 使用示例

基础用法

from transformers import T5ForConditionalGeneration, T5Tokenizer

model = T5ForConditionalGeneration.from_pretrained("Talina06/arxiv-summarization")
tokenizer = T5Tokenizer.from_pretrained("Talina06/arxiv-summarization")

text = "Summarize: Deep learning is being used to advance medical research, particularly in cancer detection."
inputs = tokenizer(text, return_tensors="pt")
summary_ids = model.generate(**inputs)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print("Generated Summary:", summary)

📚 详细文档

模型详情

属性	详情
基础模型	`google/flan-t5-small`
训练数据	Arxiv研究论文（`article` → `abstract`）
微调任务	文本摘要
使用场景	生成较长研究论文的简短摘要
许可证	Apache 2.0

训练详情

训练数据：100k+ Arxiv研究论文
训练框架：Hugging Face Transformers
超参数：
- 学习率：5e-5
- 批量大小：8
- 训练轮数：10
使用的硬件：TPU & GPU

示例摘要

原始摘要	生成的摘要
"深度学习已经改变了许多领域... 我们提出了一种用于癌症检测的新卷积神经网络..."	"使用深度学习提出了一种用于癌症检测的卷积神经网络模型。"
"量子计算在密码学应用方面显示出了潜力..."	"量子计算可用于密码学。"

🔧 技术细节

本模型是在google/flan-t5-small基础上，使用Hugging Face Transformers框架，以Arxiv研究论文作为训练数据进行微调。通过设置学习率为5e-5、批量大小为8、训练轮数为10，在TPU和GPU硬件上进行训练，最终得到优化后的模型，用于科学摘要的总结。