Rut5 Base Summarizer
基于ai-forever/ruT5-base微调的俄语文本摘要模型,训练数据约6万条样本,适用于新闻等文本的摘要生成任务。
下载量 713
发布时间 : 2/28/2024
模型简介
该模型是基于T5架构的俄语文本摘要生成器,专门针对俄语新闻文本进行优化,能够生成简洁准确的摘要。
模型特点
俄语优化
专门针对俄语文本进行微调,能够更好地处理俄语语法和表达习惯。
新闻摘要优化
训练数据主要来自新闻文本,特别适合新闻类内容的摘要生成。
T5架构优势
基于强大的T5文本到文本转换架构,具有良好的生成能力和灵活性。
模型能力
俄语文本摘要生成
新闻内容浓缩
关键信息提取
使用案例
新闻媒体
新闻自动摘要
为新闻机构自动生成新闻文章的简短摘要
可快速生成准确反映文章核心内容的摘要
内容分析
俄语文档分析
从长篇俄语文档中提取关键信息
帮助用户快速了解文档主要内容
🚀 俄语文本摘要生成器
本项目是一个俄语文本摘要生成器,基于ai-forever/ruT5-base
模型微调而来,能有效对俄语文本进行摘要提取,为用户提供便捷的文本信息提炼服务。
🚀 快速开始
本俄语文本摘要生成器基于ai-forever/ruT5-base
模型微调,并在约60k行样本的数据集上进行训练。
🔧 安装依赖
运行代码前,请确保你已经安装了torch
和transformers
库。可以使用以下命令进行安装:
pip install torch transformers
💻 使用示例
以下是一个使用该模型进行文本摘要生成的示例代码:
import torch
from transformers import T5Tokenizer, T5ForConditionalGeneration
model_name = "sarahai/ruT5-base-summarizer"
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)
device = torch.device("cpu") #if you are using cpu
input_text = "Похоже, в Солнечной системе вскоре могут снова произойти изменения, связанные с переклассификацией известных науке тел. По мнению ученых, в ближайшем будущем возможно увеличение числа так называемых карликовых планет — тел, из-за которых возникает наибольшее число споров в астрономической среде. Чтобы относиться к карликовым планетам, по правилам Международного астрономического союза телу Солнечной системы необходимо удовлетворять сразу четырем критериям. Во-первых, оно должно вращаться вокруг Солнца, при этом оно не должно быть спутником одной из планет. Пространство вокруг тела должно быть «очищено» от других объектов, и, наконец, тело должно быть достаточно массивным, чтобы быть в состоянии гидростатического равновесия — иначе говоря, оно должно быть относительно круглым. Внутри Солнечной системы есть огромное число тел, удовлетворяющих первым трем критериям, особенно, находящихся внутри Главного пояса астероидов между орбитами Марса и Юпитера. Всем четырем критериям до последнего времени, как считалось, удовлетворяли пять тел Солнечной системы — транснептуновые объекты Плутон, Эрида, Макемаке, Хаумеа и наименьшая из известных карликовых планет Церера, находящаяся в поясе астероидов. Однако последние наблюдения показали, что к карликовым планетам стоит отнести еще одно тело – Гигею, четвертый по величине объект пояса астероидов после Цереры, Весты и Паллады. До недавнего времени этот астероид был мало изучен — астрономы знали, что он имеет продолговатую форму размером более 400 километров. Наблюдения, проведенные в Чили на одном из крупнейших телескопов мира Very Large Telescope (Очень большой телескоп), смогли качественно изменить представление о форме этого тела. «Благодаря уникальным возможностям инструмента SPHERE на телескопе VLT, остающемся одной из мощнейших строящих изображение систем в мире, мы смогли рассмотреть форму Гигеи, которая оказалась почти сферической, — пояснил астроном Пьер Вернацца из Астрофизической лаборатории в Марселе. — Благодаря этим снимкам Гигея может быть переклассифицирована в карликовую планету, самую маленькую в Солнечной системе». Согласно новым наблюдениям, диаметр Гигеи составляет свыше 430 километров, а период вращения вокруг собственной оси — 13,8 часа. Ученые и раньше знали, что поверхность Гигеи схожа с поверхностью Цереры и имеет такую же низкую плотность. Однако теперь стало очевидно, что Гигея почти такая же круглая, как и Церера, и потому имеет полное право тоже называться карликовой планетой. Немало удивило астрономов и другое обстоятельство — отсутствие на поверхности Гигеи крупных ударных кратеров. Дело в то, что примерно на одной орбите с Гигеей находится порядка 7 тыс. небольших астероидов схожего состава. Гигея — наиболее массивное из этих тел, принадлежащих к одному семейству. Считается, что вся группа образовалась порядка 2 миллиардов лет назад, когда удар крупного тела выбил из Гигеи множество осколков, вылетевших в окружающее пространство. Похожее событие пережила в далеком прошлом Веста, создав вокруг себя аналогичное семейство астероидов. Правда, на теле Весты до сих пор присутствуют следы этого бурного прошлого. Снимки 95% поверхности Гигеи позволили обнаружить лишь два мелких кратера на ее поверхности, которые не идут ни в какое сравнение с «ранами» на поверхности Гигеи. «Ни один из этих кратеров не мог быть вызван ударом, образовавшим семейство астероидов Гигеи, чей объем соответствует объему тела диаметром сто километров. Они слишком маленькие», — пояснил интригу Мирослав Броз, астроном из Карлова Университета в Чехии. На помощь в решении этой загадки пришло численное моделирование, часто используемое астрофизиками для описания эволюции различных астрономических систем. С его помощью астрономы показали, что округлая форма современной Гигеи и наличие рядом с ней роя астероидов — следствие сильнейшего лобового столкновения Гигеи с крупным телом, имевшим в поперечнике от 75 до 150 километров. Моделирование показало, что это соударение, произошедшее 2 млрд лет назад, почти полностью разнесло на части Гигею. Образовавшиеся после этого осколки, слипшись под действием гравитации, заново сформировали Гигею, дав ей почти идеально круглую форму. «Такие столкновения между двумя крупными телами в поясе астероидов уникальны для последних 3-4 миллиардов лет», — пояснил Равел Севечек, соавтор исследования , опубликованного в журнале Nature Astronomy. Ранее астрономы объявили об открытии, которое в очередной раз заставит авторов переписывать учебники астрономии. С конца 1990-х годов считалось, что планетой Солнечной системы, имеющей наибольшее число спутников, является Юпитер, у которого их в настоящее время насчитывается 79 штук. Вторым после него по этому показателю был Сатурн, третьим – Уран. Однако теперь рекордсменом стал именно Сатурн, которому астрономы добавили сразу 20 небольших, ранее неизвестных спутников. Теперь их у него как минимум 82 штуки. Новые спутники были открыты при помощи телескопа Subaru, расположенного на горе Мауна-Кеа на Гавайях. Обнаружить объекты позволили новые компьютерные алгоритмы, примененные для обработки данных, полученных еще в 2004-2004 годы." #your input in russian
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to(device)
outputs = model.generate(input_ids, max_length=100, min_length=50, length_penalty=2.0, num_beams=4, early_stopping=True) #change according to your preferences
summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(summary)
代码解释
- 导入必要的库:导入
torch
和transformers
库中的T5Tokenizer
和T5ForConditionalGeneration
。 - 加载模型和分词器:使用
T5Tokenizer.from_pretrained
和T5ForConditionalGeneration.from_pretrained
加载预训练的分词器和模型。 - 准备输入文本:定义要进行摘要生成的俄语输入文本。
- 编码输入文本:使用分词器将输入文本编码为模型可以接受的输入ID。
- 生成摘要:使用模型的
generate
方法生成摘要。 - 解码摘要:使用分词器将生成的摘要ID解码为文本。
- 打印摘要:将生成的摘要打印输出。
注意事项
- 你可以根据需要调整
generate
方法中的参数,如max_length
、min_length
、length_penalty
、num_beams
和early_stopping
,以获得不同长度和质量的摘要。 - 模型的性能可能会受到微调数据的质量和代表性的影响。建议用户评估模型是否适合其特定的应用和数据集。
📚 参考资料
📄 许可证
本项目采用Apache 2.0许可证。
Bart Large Cnn
MIT
基于英语语料预训练的BART模型,专门针对CNN每日邮报数据集进行微调,适用于文本摘要任务
文本生成 英语
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一个基于T5的释义框架,专为加速训练自然语言理解(NLU)模型而设计,通过生成高质量释义实现数据增强。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸馏版本,专门针对文本摘要任务进行了优化,在保持较高性能的同时显著提升了推理速度。
文本生成 英语
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基于T5架构的模型,专门用于从摘要文本中提取原子声明,是摘要事实性评估流程的关键组件。
文本生成
Transformers 英语

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一个统一的多维评估器,用于自然语言生成任务的自动评估,支持多个可解释维度的评估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基于PEGASUS架构微调的文本复述模型,能够生成语义相同但表达不同的句子。
文本生成
Transformers 英语

P
tuner007
209.03k
185
T5 Base Korean Summarization
这是一个基于T5架构的韩语文本摘要模型,专为韩语文本摘要任务设计,通过微调paust/pko-t5-base模型在多个韩语数据集上训练而成。
文本生成
Transformers 韩语

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一种基于Transformer的预训练模型,专门用于抽象文本摘要任务。
文本生成 英语
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基于BART-large架构的对话摘要模型,专为SAMSum语料库微调,适用于生成对话摘要。
文本生成
Transformers 英语

B
philschmid
141.28k
258
Kobart Summarization
MIT
基于KoBART架构的韩语文本摘要模型,能够生成韩语新闻文章的简洁摘要。
文本生成
Transformers 韩语

K
gogamza
119.18k
12
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98