🚀 ロシア語テキスト要約モデル - LaciaSUM V1 (small)
このモデルは、自動テキスト要約タスク用に設計されたd0rj/rut5-base-summのファインチューニング版です。ロシア語テキストの処理に特化しており、元のテキストとそれに対応する要約が含まれるカスタムCSVデータセットでファインチューニングされています。
🚀 クイックスタート
このモデルは、TransformersライブラリとHugging FaceのSeq2SeqTrainerを使用してファインチューニングされています。以下は使用例です。
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("LaciaStudio/Lacia_sum_small_v1")
model = AutoModelForSeq2SeqLM.from_pretrained("LaciaStudio/Lacia_sum_small_v1")
text = "Современные технологии оказывают значительное влияние на нашу повседневную жизнь и рабочие процессы. Искусственный интеллект становится важным инструментом, помогающим оптимизировать задачи и открывающим новые перспективы в различных областях."
input_text = "summarize: " + text
inputs = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)
summary_ids = model.generate(inputs["input_ids"], max_length=150, num_beams=4, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("Summary:", summary)
✨ 主な機能
- 目的: テキストの自動抽象的要約。
- ベースモデル: d0rj/rut5-base-summ。
- データセット: Text(元のテキスト)とSummarize(要約)の列があるカスタムCSVファイル。
- 前処理: トークン化の前に、元のテキストにprefix summarize: が追加され、モデルが要約タスクに集中できるようになります。
- トレーニング設定:
- エポック数: 9。
- バッチサイズ: デバイスごとに4。
- ウォームアップステップ: 1000。
- FP16トレーニング有効(CUDAが利用可能な場合)。
- ハードウェア: RTX 3070でトレーニング(約40分のトレーニング)。
📚 ドキュメント
このモデルは、ロシア語の文書、ニュース記事、その他のテキスト形式の自動要約における迅速なプロトタイピングと実用的なアプリケーションに適しています。
このモデルは英語もサポートしていますが、そのサポートはテストされていません
モデルのトレーニングに関する詳細
トレーニングスクリプトには以下の要素が含まれています。
- カスタムデータセット: SummarizationDatasetクラスはCSVファイルを読み込み(正しいエンコーディングと区切り文字を確保)、列名の余分な空白をトリミングし、ソーステキストとターゲット要約の両方をトークン化します。
- トークン処理: 損失計算を改善するために、ターゲットテキストのパディングトークンは -100 に置き換えられます。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("LaciaStudio/Lacia_sum_small_v1")
model = AutoModelForSeq2SeqLM.from_pretrained("LaciaStudio/Lacia_sum_small_v1")
text = "Современные технологии оказывают значительное влияние на нашу повседневную жизнь и рабочие процессы. Искусственный интеллект становится важным инструментом, помогающим оптимизировать задачи и открывающим новые перспективы в различных областях."
input_text = "summarize: " + text
inputs = tokenizer(input_text, return_tensors="pt", max_length=512, truncation=True)
summary_ids = model.generate(inputs["input_ids"], max_length=150, num_beams=4, early_stopping=True)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("Summary:", summary)
要約の例
ロシア語
元のテキスト
Современные технологии оказывают значительное влияние на нашу повседневную жизнь и рабочие процессы.
Искусственный интеллект становится важным инструментом, помогающим оптимизировать задачи и открывающим
новые перспективы в различных областях.
要約されたテキスト
Современные технологии оказывают значительное влияние на повседневную жизнь и рабочие процессы, включая
искусственный интеллект, который помогает оптимизировать задачи и открывать новые перспективы.
英語
元のテキスト
Modern technologies have a significant impact on our daily lives and work processes. Artificial intelligence
is becoming an important tool that helps optimize tasks and opens up new opportunities in various fields.
要約されたテキスト
Matern technologies have a controration on our daily lives and work processes. Artificial intelligence
is becoming an important tool and helps and opens up new opportunities.
📄 ライセンス
このモデルはCC BY-NC 4.0ライセンスの下で提供されています。
ファインチューニング: LaciaStudio | LaciaAI
プロパティ |
詳細 |
モデルタイプ |
自動要約モデル |
トレーニングデータ |
カスタムCSVファイル(Text列とSummarize列) |
パイプラインタグ |
要約 |
ライブラリ名 |
transformers |