Vlt5 Base Keywords
基于谷歌Transformer架构的编码器-解码器关键词生成模型,支持波兰语和英语,主要用于从科学论文摘要中提取关键词。
下载量 6,736
发布时间 : 9/27/2022
模型简介
vlT5模型是基于T5架构的关键词生成模型,通过科学论文摘要与标题的联合训练,能够根据摘要内容生成精确但不一定完整的关键短语。
模型特点
可迁移性
模型能适应不同领域和文本类型,具有较强的迁移学习能力。
混合生成能力
兼具抽取式和生成式能力,能生成精确但不一定完整的关键短语。
多语言支持
原生支持波兰语和英语,对其他语言也有一定表现。
模型能力
关键词生成
文本摘要
多语言处理
使用案例
学术研究
科学论文关键词提取
从科学论文摘要中自动生成描述文章内容的关键词
通常生成3-5个关键词
文本处理
新闻摘要关键词提取
从新闻文本中提取关键信息
🚀 短文本关键词提取的T5模型
本项目的vlT5模型是一个基于编码器 - 解码器架构的关键词生成模型,它使用了Google提出的Transformer模块(https://huggingface.co/t5-base)。该模型在科学文章语料库上进行训练,能够根据文章摘要和标题的拼接内容预测一组给定的关键短语。它可以生成精确但并不总是完整的关键短语,仅基于摘要就能描述文章的内容。
✨ 主要特性
- 具有良好的可迁移性,适用于所有领域和类型的文本。
- 能够同时进行抽取式和抽象式的关键词生成。
📦 安装指南
文档未提及安装步骤,跳过此章节。
💻 使用示例
基础用法
from transformers import T5Tokenizer, T5ForConditionalGeneration
model = T5ForConditionalGeneration.from_pretrained("Voicelab/vlt5-base-keywords")
tokenizer = T5Tokenizer.from_pretrained("Voicelab/vlt5-base-keywords")
task_prefix = "Keywords: "
inputs = [
"Christina Katrakis, who spoke to the BBC from Vorokhta in western Ukraine, relays the account of one family, who say Russian soldiers shot at their vehicles while they were leaving their village near Chernobyl in northern Ukraine. She says the cars had white flags and signs saying they were carrying children.",
"Decays the learning rate of each parameter group by gamma every step_size epochs. Notice that such decay can happen simultaneously with other changes to the learning rate from outside this scheduler. When last_epoch=-1, sets initial lr as lr.",
"Hello, I'd like to order a pizza with salami topping.",
]
for sample in inputs:
input_sequences = [task_prefix + sample]
input_ids = tokenizer(
input_sequences, return_tensors="pt", truncation=True
).input_ids
output = model.generate(input_ids, no_repeat_ngram_size=3, num_beams=4)
predicted = tokenizer.decode(output[0], skip_special_tokens=True)
print(sample, "\n --->", predicted)
高级用法
文档未提及高级用法相关代码,跳过此部分。
📚 详细文档
模型概述
- 语言模型:t5-base
- 支持语言:波兰语(pl)、英语(en),对其他语言也有较好效果
- 训练数据:POSMAC
- 在线演示:访问 https://nlp-demo-1.voicelab.ai/ 查看更好的结果
- 相关论文:Keyword Extraction from Short Texts with a Text-To-Text Transfer Transformer, ACIIDS 2022
语料库
该模型在POSMAC语料库上进行训练。波兰开放科学元数据语料库(POSMAC)是在CURLICAT项目中汇编的216,214篇科学出版物摘要的集合。
领域 | 文档数量 | 带有关键词的文档数量 |
---|---|---|
工程与技术科学 | 58974 | 57165 |
社会科学 | 58166 | 41799 |
农业科学 | 29811 | 15492 |
人文科学 | 22755 | 11497 |
精确与自然科学 | 13579 | 9185 |
人文科学、社会科学 | 12809 | 7063 |
医学与健康科学 | 6030 | 3913 |
医学与健康科学、社会科学 | 828 | 571 |
人文科学、医学与健康科学、社会科学 | 601 | 455 |
工程与技术科学、人文科学 | 312 | 312 |
分词器
与原始的plT5实现一样,训练数据集使用句子片段(sentencepiece)的一元模型(unigram model)进行子词分词,词汇量大小为50k个标记。
推理
实验结果表明,当设置 no_repeat_ngram_size=3, num_beams=4
时,模型能够达到最佳的生成效果。
实验结果
方法 | 排名 | 微观指标 | 宏观指标 | ||||
---|---|---|---|---|---|---|---|
P | R | F1 | P | R | F1 | ||
extremeText | 1 | 0.175 | 0.038 | 0.063 | 0.007 | 0.004 | 0.005 |
3 | 0.117 | 0.077 | 0.093 | 0.011 | 0.011 | 0.011 | |
5 | 0.090 | 0.099 | 0.094 | 0.013 | 0.016 | 0.015 | |
10 | 0.060 | 0.131 | 0.082 | 0.015 | 0.025 | 0.019 | |
vlT5kw | 1 | 0.345 | 0.076 | 0.124 | 0.054 | 0.047 | 0.050 |
3 | 0.328 | 0.212 | 0.257 | 0.133 | 0.127 | 0.129 | |
5 | 0.318 | 0.237 | 0.271 | 0.143 | 0.140 | 0.141 | |
KeyBERT | 1 | 0.030 | 0.007 | 0.011 | 0.004 | 0.003 | 0.005 |
3 | 0.015 | 0.010 | 0.012 | 0.006 | 0.004 | 0.005 | |
5 | 0.011 | 0.012 | 0.011 | 0.006 | 0.005 | 0.005 | |
TermoPL | 1 | 0.118 | 0.026 | 0.043 | 0.004 | 0.003 | 0.003 |
3 | 0.070 | 0.046 | 0.056 | 0.006 | 0.005 | 0.006 | |
5 | 0.051 | 0.056 | 0.053 | 0.007 | 0.007 | 0.007 | |
all | 0.025 | 0.339 | 0.047 | 0.017 | 0.030 | 0.022 | |
extremeText | 1 | 0.210 | 0.077 | 0.112 | 0.037 | 0.017 | 0.023 |
3 | 0.139 | 0.152 | 0.145 | 0.045 | 0.042 | 0.043 | |
5 | 0.107 | 0.196 | 0.139 | 0.049 | 0.063 | 0.055 | |
10 | 0.072 | 0.262 | 0.112 | 0.041 | 0.098 | 0.058 | |
vlT5kw | 1 | 0.377 | 0.138 | 0.202 | 0.119 | 0.071 | 0.089 |
3 | 0.361 | 0.301 | 0.328 | 0.185 | 0.147 | 0.164 | |
5 | 0.357 | 0.316 | 0.335 | 0.188 | 0.153 | 0.169 | |
KeyBERT | 1 | 0.018 | 0.007 | 0.010 | 0.003 | 0.001 | 0.001 |
3 | 0.009 | 0.010 | 0.009 | 0.004 | 0.001 | 0.002 | |
5 | 0.007 | 0.012 | 0.009 | 0.004 | 0.001 | 0.002 | |
TermoPL | 1 | 0.076 | 0.028 | 0.041 | 0.002 | 0.001 | 0.001 |
3 | 0.046 | 0.051 | 0.048 | 0.003 | 0.001 | 0.002 | |
5 | 0.033 | 0.061 | 0.043 | 0.003 | 0.001 | 0.002 | |
all | 0.021 | 0.457 | 0.040 | 0.004 | 0.008 | 0.005 |
🔧 技术细节
文档未提及技术实现细节,跳过此章节。
📄 许可证
本项目采用CC BY 4.0许可证。
引用说明
或者
作者信息
该模型由Voicelab.ai的NLP研究团队训练。 您可以 点击此处 与我们联系。
Bart Large Cnn
MIT
基于英语语料预训练的BART模型,专门针对CNN每日邮报数据集进行微调,适用于文本摘要任务
文本生成 英语
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一个基于T5的释义框架,专为加速训练自然语言理解(NLU)模型而设计,通过生成高质量释义实现数据增强。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸馏版本,专门针对文本摘要任务进行了优化,在保持较高性能的同时显著提升了推理速度。
文本生成 英语
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基于T5架构的模型,专门用于从摘要文本中提取原子声明,是摘要事实性评估流程的关键组件。
文本生成
Transformers 英语

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一个统一的多维评估器,用于自然语言生成任务的自动评估,支持多个可解释维度的评估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基于PEGASUS架构微调的文本复述模型,能够生成语义相同但表达不同的句子。
文本生成
Transformers 英语

P
tuner007
209.03k
185
T5 Base Korean Summarization
这是一个基于T5架构的韩语文本摘要模型,专为韩语文本摘要任务设计,通过微调paust/pko-t5-base模型在多个韩语数据集上训练而成。
文本生成
Transformers 韩语

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一种基于Transformer的预训练模型,专门用于抽象文本摘要任务。
文本生成 英语
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基于BART-large架构的对话摘要模型,专为SAMSum语料库微调,适用于生成对话摘要。
文本生成
Transformers 英语

B
philschmid
141.28k
258
Kobart Summarization
MIT
基于KoBART架构的韩语文本摘要模型,能够生成韩语新闻文章的简洁摘要。
文本生成
Transformers 韩语

K
gogamza
119.18k
12
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98