🚀 俄羅斯文本摘要模型 - LaciaSUM V1 (小型)
本模型是專為自動文本摘要任務而設計的,它是基於 d0rj/rut5-base-summ 微調而來的版本。該模型經過特別調整,適用於處理俄語文本,並在包含原文及其對應摘要的自定義 CSV 數據集上進行了微調。
🚀 快速開始
代碼示例
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("LaciaStudio/Lacia_sum_small_v1")
model = AutoModelForSeq2SeqLM.from_pretrained("LaciaStudio/Lacia_sum_small_v1")
text = "Современные технологии оказывают значительное влияние на нашу повседневную жизнь и рабочие процессы. Искусственный интеллект становится важным инструментом, помогающим оптимизировать задачи и открывающим новые перспективы в различных областях."
input_text = "summarize: " + text
inputs = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)
summary_ids = model.generate(inputs["input_ids"], max_length=150, num_beams=4, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("Summary:", summary)
✨ 主要特性
- 目標:自動進行文本的抽象摘要。
- 基礎模型:d0rj/rut5-base-summ。
- 數據集:一個自定義的 CSV 文件,包含“Text”(原文)和“Summarize”(摘要)列。
- 預處理:在進行標記化之前,會在原文前添加前綴 “summarize: ”,這有助於模型專注於摘要任務。
- 訓練設置:
- 訓練輪數:9 輪。
- 批次大小:每個設備 4 個樣本。
- 熱身步數:1000 步。
- 啟用 FP16 訓練:(如果 CUDA 可用)。
- 硬件:在 RTX 3070 上進行訓練(約 40 分鐘訓練時間)。
📚 詳細文檔
該模型使用 Transformers 庫以及 Hugging Face 的 Seq2SeqTrainer 進行微調。訓練腳本包括:
- 自定義數據集:
SummarizationDataset
類會讀取 CSV 文件(確保正確的編碼和分隔符),去除列名中的多餘空格,並對源文本和目標摘要進行標記化。
- 標記處理:為了改進損失計算,目標文本中的填充標記會被替換為 -100。
此模型適用於快速原型開發以及俄語文檔、新聞文章和其他文本格式的自動摘要的實際應用。
該模型也支持英語,但對英語的支持尚未經過測試
💻 使用示例
基礎用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("LaciaStudio/Lacia_sum_small_v1")
model = AutoModelForSeq2SeqLM.from_pretrained("LaciaStudio/Lacia_sum_small_v1")
text = "Современные технологии оказывают значительное влияние на нашу повседневную жизнь и рабочие процессы. Искусственный интеллект становится важным инструментом, помогающим оптимизировать задачи и открывающим новые перспективы в различных областях."
input_text = "summarize: " + text
inputs = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)
summary_ids = model.generate(inputs["input_ids"], max_length=150, num_beams=4, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("Summary:", summary)
摘要示例
俄語
原文
Современные технологии оказывают значительное влияние на нашу повседневную жизнь и рабочие процессы.
Искусственный интеллект становится важным инструментом, помогающим оптимизировать задачи и открывающим
новые перспективы в различных областях.
摘要
Современные технологии оказывают значительное влияние на повседневную жизнь и рабочие процессы, включая
искусственный интеллект, который помогает оптимизировать задачи и открывать новые перспективы.
英語
原文
Modern technologies have a significant impact on our daily lives and work processes. Artificial intelligence
is becoming an important tool that helps optimize tasks and opens up new opportunities in various fields.
摘要
Matern technologies have a controration on our daily lives and work processes. Artificial intelligence
is becoming an important tool and helps and opens up new opportunities.
📄 許可證
本模型採用 CC BY-NC 4.0 許可證。
微調由 LaciaStudio | LaciaAI 完成
信息表格
屬性 |
詳情 |
模型類型 |
文本摘要模型 |
訓練數據 |
一個自定義的 CSV 文件,包含“Text”(原文)和“Summarize”(摘要)列 |
基礎模型 |
d0rj/rut5-base-summ |
任務標籤 |
文本摘要、自然語言處理、文本分析、序列到序列等 |
庫名稱 |
Transformers |