FRED T5 Large Habr Summarizer
F
FRED T5 Large Habr Summarizer
由 basic-go 开发
基于FRED-T5-large训练的Habr文章抽象摘要生成器,专门用于俄语文本摘要任务
下载量 70
发布时间 : 12/17/2023
模型简介
这是一个针对Habr技术文章的抽象摘要生成模型,底层采用ai-forever/FRED-T5-large架构,经过多阶段优化训练,能够生成高质量的俄语技术文章摘要。
模型特点
多阶段优化训练
采用SFT、DPO等多阶段训练策略,结合数据扩展和后处理技术,显著提升摘要质量
专业领域适配
专门针对Habr技术文章进行优化,理解技术术语和上下文
智能后处理
包含自动清理和截断机制,解决模型输出的常见问题如未完成句末生成等
模型能力
俄语文本理解
技术文章摘要生成
长文本处理
使用案例
内容摘要
技术文章摘要
为Habr等技术平台的长篇文章生成简洁摘要
在测试集上达到0.6075的指标值
内容预处理
为下游NLP任务提供预处理后的文本摘要
🚀 哈勃文章抽象摘要生成器
这是一个用于哈勃文章的抽象摘要生成器,基于 GPT Week 测试任务的数据进行训练。它以 ai-forever/FRED-T5-large 为基础模型,能够有效对哈勃文章进行摘要提取。
🚀 快速开始
使用该摘要生成器需要对文本进行预处理和后处理,以下是具体示例:
import re
from transformers import pipeline
clean_expr = re.compile(r"[\xa0\x1a\x16\x1b\x17\x15\u2004]")
spaces_expr = re.compile(r"\s{2,}")
def process_text(text: str) -> str:
"""对文本进行预处理和后处理。"""
text = clean_expr.sub(" ", text)
text = spaces_expr.sub(" ", text)
if "." in text:
index = text.rindex(".")
text = text[:index + 1]
return text
summarizer = pipeline("summarization", model="basic-go/FRED-T5-large-habr-summarizer", device=0)
ARTICLE = """
Трогательный инженерный бизиборд, Новый Год и волонтеры / Хабр
31-12-2019
Зачем нужен бизиборд, когда у папы много интересных инструментов? Опасные убраны, а пассатижами пусть ребенок играет, шуруповерт нажимает, ручки осциллографа крутит. Но наступил момент и сделан инженерный бизиборд. Таким каким он должен быть, в противоположность фабричному изделию – красивому, глянцевому, красочному, со всеми закругленными углами и краями. Разноцветному для глаз, но однородному и скучному на ощупь. С чего все началось Началось с объявления чуть больше года назад в социальной сети, что московскому психоневралогическому интернату (ПНИ) требуются бизиборды: Что это такое Что такое ПНИ трудно представить, но можно посмотреть в youtube. И если волонтеры пишут, что в ПНИ проблема дефицита сенсорных впечатлений, значит это ОЧЕНЬ большая проблема. Мы, взрослые, ходим по строительному гипермаркету и крутим в руках железки, щупаем трубки, проводим рукой по оплетке и т.д. Женщины в магазине трогают вообще всё. Я инженер, регулярно покупаю какие-то детали, чтобы на столе лежали, и я достаточное количество раз их потрогал и постепенно понял – смогу ли применить как задумал. Каждый в детстве лежал на кровати и бесконечно долго разглядывал и щупал ковер. Или, провинившись, стоял в углу и ковырял обои. Щупать – это способность и потребность человека. Когда мы с товарищем увидели бизиборды, которые планируется купить для ПНИ, решили сделать максимально трогательный бизиборд сами. Трогательный в прямом смысле. Куплены парные раскручивающиеся фитинги из пластика, никелированной стали, бронзы, чугуна оцинкованного и черного чугуна. Медные трубки, гофрированная трубка из нержавеющей стали, по которой со звоном долго спускается шайба, если ее поднять и отпустить. Самый красивый материал, конечно, никелированная сталь. Но красота не главное, главное контраст. Поэтому рядом с никелированной деталью висит деталь из черного чугуна, и трудно сказать – какой материал даст больший чувственный опыт. «Чугунные игрушки» из анекдота – не насмешка, а необходимость; ребенку важно почувствовать тяжесть и грубую фактуру материала. Все фитинги по-разному закручиваются, интересней других крутить сложные составные фитинги для труб ПНД. Гофра для унитаза удивляет диаметром, и ее можно растягивать. Пеньковая веревка впечатляюще колюча. Отрезной диск красивый, брутальный, и на ощупь грубый. Образцы керамики вдали выглядят обычно, но красивые, если рассматривать их многослойное покрытие вблизи, проводя по рельефу пальцами. Как это сделано За основу взят лист фанеры 1500×1000×10 мм. В строительном гипермаркете есть услуга пила в размер, к основному листу дополнительно нарезали ребер жесткости. С размером листа ошибся, лист чуть-чуть не влез в автомобиль, а гипермаркет уже закрылся и пришлось в ночь идти с этим листом домой пешком – не надо так. Ребра жесткости прикручены шурупами 16 мм – стянут оба листа, но не выйдут с другой стороны. Всюду, где можно, использован детский труд. Детский труд экономит деньги – не нужно покупать очередной конструктор. Вон папе купили новое кресло, иди распаковывай и собирай, нужна будет помощь — позовешь. И детский труд – это педагогично, ребенок вырастет умеющим не только работать руками, но и делегировать задачи. Дети учатся не тому, чему их учат взрослые, а тому что взрослые при детях делают. Покрасили на лестничной площадке, постелив полиэтилен. Закрепили детали тросами в ПВХ-оплетке. Стальные тросы в ПВХ-оплетке — прекрасный материал, только пришлось отдельно ехать в магазин за кусачками, которые этот трос смогут перекусить. На обратной стороне тросы затянули узлами, а узлы залили термоклеем. Термоклей имеет хорошую адгезию к ПВХ, залитый узел сам не распустится и выдернуть его с лицевой стороны стенда невозможно. Чем все закончилось В «наш» ПНИ уже успели закупить готовые бизиборды, меня переправили к волонтерам другого ПНИ. Там фотографии посмотрели и сказали – а давайте отправим ваш стенд в Азовский интернат для умственно отсталых детей. Сказали – и отправили. В новогоднюю ночь приехала еще одна бригада волонтеров, погрузили стенд в огромный прицеп к АЗЛК 2141 уже забитый коробками с подарками интернату, и в метель уехали. Очень романтично. Дальше я долго пытался получить какую-то обратную связь от волонтеров, но смог лишь узнать телефон интерната. Там звонку удивились, обрадовались, сказали, что не поняли, что это им привезли и отдали в уголок труда. И сказали, что примут любую помощь, и чтобы я приходил и помогал. Я посмотрел фотографии интерната, посмотрел на детей и увидел, что стенд отправили совершенно не туда. Ситуация в интернате по сравнению с ПНИ роскошная, проблемы запертости в своем теле и на своей кровати у детей нет. Жил бы рядом с интернатом – приходил бы по субботам, учил бы этих детей программировать Ардуино. Опыт преподавания робототехники в школе есть, справился бы и в интернате. Но между нами 1100 км. А стенд все же нужен был в ПНИ. Выводы Все сделано правильно, только нужно самому говорить с тем, для кого что-то делаешь. Самому изучать потребность, самому получать обратную связь и самому делать следующий шаг. Стенд делается относительно легко, технология «фанера + тросы в пвх + термоклей» рабочая, предлагаю использовать наш опыт.
"""
ARTICLE = process_text(ARTICLE)
response = summarizer(ARTICLE, max_new_tokens=360, num_beams=2, do_sample=True, top_k=100,
repetition_penalty=2.5, length_penalty=1.0)
summary = process_text(response[0]["summary_text"])
print(summary)
# Трогательный инженерный бизиборд, сделанный для московского психоневралогического интерната, был сделан самим автором. Он использовал парные раскручивающиеся фитинги из пластика, никелированной стали, бронзы, чугуна оцинкованного и черного чугуна, а также детские труд и инструменты. В новогоднюю ночь стенд был отправлен в Азовский интернат для умственно отсталых детей. Автор выражает благодарность волонтерам, которые помогли сделать этот стенд, и предлагает использовать их опыт для улучшения ситуации в интернате.
📚 详细文档
历史方法
不同方法在测试数据集上的指标如下表所示:
# | 额外数据 | SFT | DPO | 后处理 | 指标 |
---|---|---|---|---|---|
1 | ✓ | 0.5168 | |||
2 | ✓ | ✓ | 0.5525 | ||
3 | ✓ | ✓ | ✓ | 0.5664 | |
4 | ✓ | ✓ | ✓ | 0.6075 |
在初始阶段,模型存在以下影响指标的问题:
- 字节序列生成问题:通过预处理和后处理解决。
- 模型常未完成最后一句:通过后处理截断未完成部分解决,后处理对最终模型的指标贡献较小。
- 文本片段重复和改写:在最终模型中该问题得到显著缓解,但仍可能存在重复情况。
1. SFT
- 按照
metric > 0.65
的规则从训练数据集中进行切片。 - 将切片后的数据集按 4 : 1 的比例划分为训练集和验证集。
- 以 1e - 4 为初始学习率,进行 4 个 epoch 的训练,学习率逐渐减小。
2. SFT + 后处理
- 对模型的文本输出应用示例中的
process_text
函数。
3. SFT + DPO + 后处理
- 使用 SFT 模型对训练切片进行推理。
- 以 1e - 7 为学习率,对生成的候选数据进行 1 个 epoch 的 DPO 训练。
4. 额外数据 + SFT + 后处理
“额外数据” 意味着在更大的数据集上进行更多训练。
- 使用上一步得到的模型对原始训练数据集的一半进行推理。
- 将生成结果与之前的生成结果合并,并为每篇文章选择最佳候选。
- 按照
metric > 0.65
的规则对候选数据进行新的切片,使数据集增加 30%。 - 以 1e - 4 为初始学习率,重新进行 8 个 epoch 的训练,学习率逐渐减小。
未成功的尝试
未能实现 额外数据 + SFT + DPO [+ 后处理]
配置,训练不稳定,模型从某个时刻开始性能下降。
可能的改进方向
在第四种方法中,仅使用了约 20% 的原始训练数据集。通过更改生成参数并重新进行推理,可以获得更多通过 metric > 0.65
阈值的候选数据。预计在具有更多高质量候选数据的数据集上训练模型(由于多样性增加),可以提高目标指标。
📄 许可证
本项目采用 Apache - 2.0 许可证。
Bart Large Cnn
MIT
基于英语语料预训练的BART模型,专门针对CNN每日邮报数据集进行微调,适用于文本摘要任务
文本生成 英语
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一个基于T5的释义框架,专为加速训练自然语言理解(NLU)模型而设计,通过生成高质量释义实现数据增强。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸馏版本,专门针对文本摘要任务进行了优化,在保持较高性能的同时显著提升了推理速度。
文本生成 英语
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基于T5架构的模型,专门用于从摘要文本中提取原子声明,是摘要事实性评估流程的关键组件。
文本生成
Transformers 英语

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一个统一的多维评估器,用于自然语言生成任务的自动评估,支持多个可解释维度的评估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基于PEGASUS架构微调的文本复述模型,能够生成语义相同但表达不同的句子。
文本生成
Transformers 英语

P
tuner007
209.03k
185
T5 Base Korean Summarization
这是一个基于T5架构的韩语文本摘要模型,专为韩语文本摘要任务设计,通过微调paust/pko-t5-base模型在多个韩语数据集上训练而成。
文本生成
Transformers 韩语

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一种基于Transformer的预训练模型,专门用于抽象文本摘要任务。
文本生成 英语
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基于BART-large架构的对话摘要模型,专为SAMSum语料库微调,适用于生成对话摘要。
文本生成
Transformers 英语

B
philschmid
141.28k
258
Kobart Summarization
MIT
基于KoBART架构的韩语文本摘要模型,能够生成韩语新闻文章的简洁摘要。
文本生成
Transformers 韩语

K
gogamza
119.18k
12
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98