🚀 arxiv-summarization
本模型是基于数据集armanc/scientific_papers
(arxiv)对google/flan-t5-small
进行微调后的版本。它针对科学摘要的总结进行了优化。
🚀 快速开始
本模型可用于生成较长研究论文的简短摘要。以下是使用示例:
from transformers import T5ForConditionalGeneration, T5Tokenizer
model = T5ForConditionalGeneration.from_pretrained("Talina06/arxiv-summarization")
tokenizer = T5Tokenizer.from_pretrained("Talina06/arxiv-summarization")
text = "Summarize: Deep learning is being used to advance medical research, particularly in cancer detection."
inputs = tokenizer(text, return_tensors="pt")
summary_ids = model.generate(**inputs)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("Generated Summary:", summary)
✨ 主要特性
- 基于
google/flan-t5-small
模型进行微调。
- 以Arxiv研究论文作为训练数据,专注于文本摘要生成。
- 可有效生成较长研究论文的简短摘要。
📦 安装指南
文档未提及具体安装步骤,可参考transformers
库的安装方式,使用以下命令安装:
pip install transformers
💻 使用示例
基础用法
from transformers import T5ForConditionalGeneration, T5Tokenizer
model = T5ForConditionalGeneration.from_pretrained("Talina06/arxiv-summarization")
tokenizer = T5Tokenizer.from_pretrained("Talina06/arxiv-summarization")
text = "Summarize: Deep learning is being used to advance medical research, particularly in cancer detection."
inputs = tokenizer(text, return_tensors="pt")
summary_ids = model.generate(**inputs)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("Generated Summary:", summary)
📚 详细文档
模型详情
属性 |
详情 |
基础模型 |
google/flan-t5-small |
训练数据 |
Arxiv研究论文(article → abstract ) |
微调任务 |
文本摘要 |
使用场景 |
生成较长研究论文的简短摘要 |
许可证 |
Apache 2.0 |
训练详情
- 训练数据:100k+ Arxiv研究论文
- 训练框架:Hugging Face Transformers
- 超参数:
- 使用的硬件:TPU & GPU
示例摘要
原始摘要 |
生成的摘要 |
"深度学习已经改变了许多领域... 我们提出了一种用于癌症检测的新卷积神经网络..." |
"使用深度学习提出了一种用于癌症检测的卷积神经网络模型。" |
"量子计算在密码学应用方面显示出了潜力..." |
"量子计算可用于密码学。" |
🔧 技术细节
本模型是在google/flan-t5-small
基础上,使用Hugging Face Transformers框架,以Arxiv研究论文作为训练数据进行微调。通过设置学习率为5e-5
、批量大小为8
、训练轮数为10
,在TPU和GPU硬件上进行训练,最终得到优化后的模型,用于科学摘要的总结。
📄 许可证
本模型使用Apache 2.0许可证。
⚠️ 重要提示
该模型在处理非常专业的论文(例如包含复杂数学公式的论文)时可能会遇到困难。