Lacia_sum_small_v1開源俄語文本摘要模型 - 專為俄語處理，免費生成抽象摘要

首頁

Lacia Sum Small V1

由LaciaStudio開發

基於d0rj/rut5-base-summ微調的俄語文本摘要模型，專為處理俄語文本優化，可生成抽象式摘要。

文本生成

Transformers

支持多種語言#俄語文本摘要 #T5架構微調 #快速原型開發

下載量 380

發布時間 : 2/8/2025

模型概述

本模型是基於d0rj/rut5-base-summ微調的自動文本摘要專用模型，專為處理俄語文本優化，並在包含原文與對應摘要的自定義CSV數據集上進行了訓練。

模型特點

俄語優化

專為處理俄語文本優化，能生成高質量的俄語摘要。

抽象式摘要

能夠生成抽象式摘要，而不僅僅是提取關鍵句子。

前綴強化

在分詞前為原文添加'summarize:'前綴，強化模型聚焦摘要任務。

高效訓練

使用RTX 3070顯卡訓練僅需約40分鐘，適合快速原型開發。

模型能力

俄語文本摘要

英語文本摘要

抽象式摘要生成

使用案例

文檔處理

俄語文檔摘要

為俄語文檔生成簡潔摘要

生成準確反映原文內容的抽象式摘要

新聞稿件摘要

自動生成新聞稿件的要點摘要

提取新聞關鍵信息，生成簡明扼要的摘要

🚀 俄羅斯文本摘要模型 - LaciaSUM V1 (小型)

本模型是專為自動文本摘要任務而設計的，它是基於 d0rj/rut5-base-summ 微調而來的版本。該模型經過特別調整，適用於處理俄語文本，並在包含原文及其對應摘要的自定義 CSV 數據集上進行了微調。

🚀 快速開始

代碼示例

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("LaciaStudio/Lacia_sum_small_v1")
model = AutoModelForSeq2SeqLM.from_pretrained("LaciaStudio/Lacia_sum_small_v1")

text = "Современные технологии оказывают значительное влияние на нашу повседневную жизнь и рабочие процессы. Искусственный интеллект становится важным инструментом, помогающим оптимизировать задачи и открывающим новые перспективы в различных областях."

# "summarize: " 前綴
input_text = "summarize: " + text
inputs = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)

summary_ids = model.generate(inputs["input_ids"], max_length=150, num_beams=4, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print("Summary:", summary)

✨ 主要特性

目標：自動進行文本的抽象摘要。
基礎模型：d0rj/rut5-base-summ。
數據集：一個自定義的 CSV 文件，包含“Text”（原文）和“Summarize”（摘要）列。
預處理：在進行標記化之前，會在原文前添加前綴 “summarize: ”，這有助於模型專注於摘要任務。
訓練設置：
- 訓練輪數：9 輪。
- 批次大小：每個設備 4 個樣本。
- 熱身步數：1000 步。
- 啟用 FP16 訓練：（如果 CUDA 可用）。
- 硬件：在 RTX 3070 上進行訓練（約 40 分鐘訓練時間）。

📚 詳細文檔

該模型使用 Transformers 庫以及 Hugging Face 的 Seq2SeqTrainer 進行微調。訓練腳本包括：

自定義數據集：SummarizationDataset 類會讀取 CSV 文件（確保正確的編碼和分隔符），去除列名中的多餘空格，並對源文本和目標摘要進行標記化。
標記處理：為了改進損失計算，目標文本中的填充標記會被替換為 -100。

此模型適用於快速原型開發以及俄語文檔、新聞文章和其他文本格式的自動摘要的實際應用。 該模型也支持英語，但對英語的支持尚未經過測試

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("LaciaStudio/Lacia_sum_small_v1")
model = AutoModelForSeq2SeqLM.from_pretrained("LaciaStudio/Lacia_sum_small_v1")

text = "Современные технологии оказывают значительное влияние на нашу повседневную жизнь и рабочие процессы. Искусственный интеллект становится важным инструментом, помогающим оптимизировать задачи и открывающим новые перспективы в различных областях."

# "summarize: " 前綴
input_text = "summarize: " + text
inputs = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)

summary_ids = model.generate(inputs["input_ids"], max_length=150, num_beams=4, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print("Summary:", summary)

摘要示例

俄語

原文

Современные технологии оказывают значительное влияние на нашу повседневную жизнь и рабочие процессы.
Искусственный интеллект становится важным инструментом, помогающим оптимизировать задачи и открывающим
новые перспективы в различных областях.

摘要

Современные технологии оказывают значительное влияние на повседневную жизнь и рабочие процессы, включая
искусственный интеллект, который помогает оптимизировать задачи и открывать новые перспективы.

英語

原文

Modern technologies have a significant impact on our daily lives and work processes. Artificial intelligence
is becoming an important tool that helps optimize tasks and opens up new opportunities in various fields.

摘要

Matern technologies have a controration on our daily lives and work processes. Artificial intelligence
is becoming an important tool and helps and opens up new opportunities.

📄 許可證

本模型採用 CC BY-NC 4.0 許可證。

微調由 LaciaStudio | LaciaAI 完成

信息表格

屬性	詳情
模型類型	文本摘要模型
訓練數據	一個自定義的 CSV 文件，包含“Text”（原文）和“Summarize”（摘要）列
基礎模型	d0rj/rut5-base-summ
任務標籤	文本摘要、自然語言處理、文本分析、序列到序列等
庫名稱	Transformers