Lacia_sum_small_v1开源俄语文本摘要模型 - 专为俄语处理，免费生成抽象摘要

首页

Lacia Sum Small V1

由 LaciaStudio 开发

基于d0rj/rut5-base-summ微调的俄语文本摘要模型，专为处理俄语文本优化，可生成抽象式摘要。

文本生成

Transformers

支持多种语言#俄语文本摘要 #T5架构微调 #快速原型开发

下载量 380

发布时间 : 2/8/2025

模型简介

本模型是基于d0rj/rut5-base-summ微调的自动文本摘要专用模型，专为处理俄语文本优化，并在包含原文与对应摘要的自定义CSV数据集上进行了训练。

模型特点

俄语优化

专为处理俄语文本优化，能生成高质量的俄语摘要。

抽象式摘要

能够生成抽象式摘要，而不仅仅是提取关键句子。

前缀强化

在分词前为原文添加'summarize:'前缀，强化模型聚焦摘要任务。

高效训练

使用RTX 3070显卡训练仅需约40分钟，适合快速原型开发。

模型能力

俄语文本摘要

英语文本摘要

抽象式摘要生成

使用案例

文档处理

俄语文档摘要

为俄语文档生成简洁摘要

生成准确反映原文内容的抽象式摘要

新闻稿件摘要

自动生成新闻稿件的要点摘要

提取新闻关键信息，生成简明扼要的摘要

🚀 俄罗斯文本摘要模型 - LaciaSUM V1 (小型)

本模型是专为自动文本摘要任务而设计的，它是基于 d0rj/rut5-base-summ 微调而来的版本。该模型经过特别调整，适用于处理俄语文本，并在包含原文及其对应摘要的自定义 CSV 数据集上进行了微调。

🚀 快速开始

代码示例

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("LaciaStudio/Lacia_sum_small_v1")
model = AutoModelForSeq2SeqLM.from_pretrained("LaciaStudio/Lacia_sum_small_v1")

text = "Современные технологии оказывают значительное влияние на нашу повседневную жизнь и рабочие процессы. Искусственный интеллект становится важным инструментом, помогающим оптимизировать задачи и открывающим новые перспективы в различных областях."

# "summarize: " 前缀
input_text = "summarize: " + text
inputs = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)

summary_ids = model.generate(inputs["input_ids"], max_length=150, num_beams=4, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print("Summary:", summary)

✨ 主要特性

目标：自动进行文本的抽象摘要。
基础模型：d0rj/rut5-base-summ。
数据集：一个自定义的 CSV 文件，包含“Text”（原文）和“Summarize”（摘要）列。
预处理：在进行标记化之前，会在原文前添加前缀 “summarize: ”，这有助于模型专注于摘要任务。
训练设置：
- 训练轮数：9 轮。
- 批次大小：每个设备 4 个样本。
- 热身步数：1000 步。
- 启用 FP16 训练：（如果 CUDA 可用）。
- 硬件：在 RTX 3070 上进行训练（约 40 分钟训练时间）。

📚 详细文档

该模型使用 Transformers 库以及 Hugging Face 的 Seq2SeqTrainer 进行微调。训练脚本包括：

自定义数据集：SummarizationDataset 类会读取 CSV 文件（确保正确的编码和分隔符），去除列名中的多余空格，并对源文本和目标摘要进行标记化。
标记处理：为了改进损失计算，目标文本中的填充标记会被替换为 -100。

此模型适用于快速原型开发以及俄语文档、新闻文章和其他文本格式的自动摘要的实际应用。 该模型也支持英语，但对英语的支持尚未经过测试

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("LaciaStudio/Lacia_sum_small_v1")
model = AutoModelForSeq2SeqLM.from_pretrained("LaciaStudio/Lacia_sum_small_v1")

text = "Современные технологии оказывают значительное влияние на нашу повседневную жизнь и рабочие процессы. Искусственный интеллект становится важным инструментом, помогающим оптимизировать задачи и открывающим новые перспективы в различных областях."

# "summarize: " 前缀
input_text = "summarize: " + text
inputs = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)

summary_ids = model.generate(inputs["input_ids"], max_length=150, num_beams=4, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print("Summary:", summary)

摘要示例

俄语

原文

Современные технологии оказывают значительное влияние на нашу повседневную жизнь и рабочие процессы.
Искусственный интеллект становится важным инструментом, помогающим оптимизировать задачи и открывающим
новые перспективы в различных областях.

摘要

Современные технологии оказывают значительное влияние на повседневную жизнь и рабочие процессы, включая
искусственный интеллект, который помогает оптимизировать задачи и открывать новые перспективы.

英语

原文

Modern technologies have a significant impact on our daily lives and work processes. Artificial intelligence
is becoming an important tool that helps optimize tasks and opens up new opportunities in various fields.

摘要

Matern technologies have a controration on our daily lives and work processes. Artificial intelligence
is becoming an important tool and helps and opens up new opportunities.

📄 许可证

本模型采用 CC BY-NC 4.0 许可证。

微调由 LaciaStudio | LaciaAI 完成

信息表格

属性	详情
模型类型	文本摘要模型
训练数据	一个自定义的 CSV 文件，包含“Text”（原文）和“Summarize”（摘要）列
基础模型	d0rj/rut5-base-summ
任务标签	文本摘要、自然语言处理、文本分析、序列到序列等
库名称	Transformers