🚀 クイックスタート
このモデルは、長文のテキストを簡潔で有益な要約にまとめるために使用されます。詳細なレポート、研究論文、または記事の全体を読まずに内容の要点を迅速に把握する必要がある専門家や研究者に特に役立ちます。
インストール
pip
を使用してインストールします。
pip install transformers
使用例
from transformers import pipeline
from transformers import AutoTokenizer
from transformers import AutoModelForSeq2SeqLM
model_name = "KipperDev/t5_summarizer_model"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
summarizer = pipeline("summarization", model=model, tokenizer=tokenizer)
prefix = "summarize: "
input_text = "Your input text here."
input_ids = tokenizer.encode(prefix + input_text, return_tensors="pt")
summary_ids = model.generate(input_ids)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary)
⚠️ 重要提示
モデルを意図通りに動作させるには、入力データの前に summarize:
の接頭辞を付ける必要があります。
✨ 主な機能
このモデルは、t5-small モデルのバリアントで、テキスト要約タスクに特化して微調整されています。T5のテキスト対テキストアプローチの力を活用して、広範なテキストドキュメントから簡潔で首尾一貫した有益な要約を生成することを目的としています。
📦 インストール
pip
を使用してインストールします。
pip install transformers
💻 使用例
基本的な使用法
from transformers import pipeline
from transformers import AutoTokenizer
from transformers import AutoModelForSeq2SeqLM
model_name = "KipperDev/t5_summarizer_model"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
summarizer = pipeline("summarization", model=model, tokenizer=tokenizer)
prefix = "summarize: "
input_text = "Your input text here."
input_ids = tokenizer.encode(prefix + input_text, return_tensors="pt")
summary_ids = model.generate(input_ids)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary)
🔧 技術詳細
学習データ
このモデルは、Big Patent Dataset を使用して学習されました。このデータセットは130万件の米国特許文書とそれに対応する人間が書いた要約から構成されています。このデータセットは、豊富な言語と複雑な構造を持ち、文書要約タスクの難しさを代表しているため選ばれました。学習には、データセットの複数のサブセットが使用され、様々な文書タイプに対して幅広いカバレッジと堅牢なモデル性能を確保しました。
学習手順
学習は3ラウンドにわたって行われました。初期設定では、学習率0.00002、バッチサイズ8、エポック数4で行われました。その後のラウンドでは、それぞれ0.0003、8、12にパラメータを調整してモデル性能をさらに洗練させました。また、モデルの学習効率を経時的に向上させるために、線形減衰学習率スケジュールが適用されました。
📚 ドキュメント
学習結果
モデルの性能はROUGEメトリックを使用して評価され、人間が書いた要約に近い要約を生成する能力が示されました。
Metric |
Value |
Evaluation Loss (Eval Loss) |
1.9984 |
Rouge-1 |
0.503 |
Rouge-2 |
0.286 |
Rouge-L |
0.3813 |
Rouge-Lsum |
0.3813 |
Average Generation Length (Gen Len) |
151.918 |
Runtime (seconds) |
714.4344 |
Samples per Second |
2.679 |
Steps per Second |
0.336 |
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
📖 引用
BibTeX:
@article{kipper_t5_summarizer,
// SOON
}
👨💻 作者
このモデルカードは Fernanda Kipper によって作成されました。