🚀 ロシア語テキスト要約モデル - LaciaSUM V1 (小型)
このモデルは、自動テキスト要約タスク用に設計されたd0rj/rut5-base-summのファインチューニング版です。ロシア語テキストの処理に特化しており、元のテキストとそれに対応する要約が含まれるカスタムCSVデータセットでファインチューニングされています。

✨ 主な機能
- 目的: テキストの自動抽象要約。
- ベースモデル: d0rj/rut5-base-summ。
- データセット: Text(元のテキスト)とSummarize(要約)の列があるカスタムCSVファイル。
- 前処理: トークン化の前に、元のテキストに"summarize: "という接頭辞が追加され、モデルが要約タスクに集中できるようになります。
- トレーニング設定:
- エポック数: 9。
- バッチサイズ: デバイスごとに4。
- ウォームアップステップ: 1000。
- FP16トレーニングを有効にする(CUDAが利用可能な場合)。
- ハードウェア: RTX 3070でトレーニング(約40分のトレーニング)。
📚 ドキュメント
このモデルは、TransformersライブラリとHugging FaceのSeq2SeqTrainerを使用してファインチューニングされました。トレーニングスクリプトには以下が含まれます。
- カスタムデータセット: SummarizationDatasetクラスはCSVファイルを読み込み(正しいエンコーディングと区切り文字を確認)、列名の余分な空白を削除し、ソーステキストとターゲット要約の両方をトークン化します。
- トークン処理: 損失計算を改善するために、ターゲットテキストのパディングトークンは-100に置き換えられます。
このモデルは、ロシア語の文書、ニュース記事、その他のテキスト形式の自動要約における迅速なプロトタイピングと実用的なアプリケーションに適しています。
このモデルは英語もサポートしていますが、そのサポートはテストされていません。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("LaciaStudio/Lacia_sum_small_v1")
model = AutoModelForSeq2SeqLM.from_pretrained("LaciaStudio/Lacia_sum_small_v1")
text = "Современные технологии оказывают значительное влияние на нашу повседневную жизнь и рабочие процессы. Искусственный интеллект становится важным инструментом, помогающим оптимизировать задачи и открывающим новые перспективы в различных областях."
input_text = "summarize: " + text
inputs = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)
summary_ids = model.generate(inputs["input_ids"], max_length=150, num_beams=4, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("Summary:", summary)
要約の例
ロシア語
元のテキスト:
Современные технологии оказывают значительное влияние на нашу повседневную жизнь и рабочие процессы.
Искусственный интеллект становится важным инструментом, помогающим оптимизировать задачи и открывающим
новые перспективы в различных областях.
要約されたテキスト:
Современные технологии оказывают значительное влияние на повседневную жизнь и рабочие процессы, включая
искусственный интеллект, который помогает оптимизировать задачи и открывать новые перспективы.
英語
元のテキスト:
Modern technologies have a significant impact on our daily lives and work processes. Artificial intelligence
is becoming an important tool that helps optimize tasks and opens up new opportunities in various fields.
要約されたテキスト:
Matern technologies have a controration on our daily lives and work processes. Artificial intelligence
is becoming an important tool and helps and opens up new opportunities.
📄 ライセンス
このモデルはCC-BY-NC-4.0ライセンスの下で提供されています。
ファインチューニング: LaciaStudio | LaciaAI