bert2gpt-indonesian-summarizationオープンソースモデル - 高効率でインドネシア語のテキスト要約を生成

ホーム

Bert2gpt Indonesian Summarization

cahyaによって開発

BERT-baseとGPT2-smallをファインチューニングしたインドネシア語テキスト要約のエンコーダ-デコーダモデルで、インドネシア語テキストの要約生成に適しています。

テキスト生成

Transformers

その他オープンソースライセンス:Apache-2.0 #インドネシア語要約 #BERT2GPTアーキテクチャ #ニュース要約

ダウンロード数 197

リリース時間 : 3/2/2022

モデル概要

このモデルはエンコーダ-デコーダ構造のテキスト要約モデルで、BERTをエンコーダ、GPT2をデコーダとして使用し、インドネシア語テキストに特化してファインチューニングされており、高品質なテキスト要約を生成できます。

モデル特徴

インドネシア語最適化

インドネシア語テキストに特化してファインチューニングされており、インドネシア語の要約をより良く理解し生成できます。

エンコーダ-デコーダ構造

BERTの強力なエンコード能力とGPT2の流暢な生成能力を組み合わせ、高品質なテキスト要約を実現します。

事前学習モデルのファインチューニング

事前学習済みのBERTとGPT2モデルを基にファインチューニングしており、大規模な事前学習による言語理解能力を活用しています。

モデル能力

テキスト要約

インドネシア語テキスト処理

テキスト生成

使用事例

ニュース要約

ニュース記事の要約

ニュース記事の短い要約を自動生成し、読者が主要な内容を素早く理解できるようにします。

簡潔で正確なニュース要約を生成

ドキュメント処理

長文ドキュメントの要約

長文ドキュメントのキーポイント要約を生成し、読解効率を向上させます。

ドキュメントの核心内容を抽出

🚀 インドネシア語BERT2BERT要約モデル

BERT-baseとGPT2-smallを使用して、インドネシア語の文章要約用に微調整されたEncoderDecoderモデルです。このモデルは、インドネシア語の文章を効果的に要約することができます。

🚀 クイックスタート

このモデルは、BERT-baseとGPT2-smallをベースに、インドネシア語の文章要約に特化して微調整されています。以下の手順でモデルを使用することができます。

✨ 主な機能

BERT-baseとGPT2-smallを組み合わせたEncoderDecoderモデルを使用。
インドネシア語の文章要約に特化して微調整されている。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコードでモデルをロードすることができます。

from transformers import BertTokenizer, EncoderDecoderModel

tokenizer = BertTokenizer.from_pretrained("cahya/bert2gpt-indonesian-summarization")
tokenizer.bos_token = tokenizer.cls_token
tokenizer.eos_token = tokenizer.sep_token
model = EncoderDecoderModel.from_pretrained("cahya/bert2gpt-indonesian-summarization")

💻 使用例

基本的な使用法

from transformers import BertTokenizer, EncoderDecoderModel

tokenizer = BertTokenizer.from_pretrained("cahya/bert2gpt-indonesian-summarization")
tokenizer.bos_token = tokenizer.cls_token
tokenizer.eos_token = tokenizer.sep_token
model = EncoderDecoderModel.from_pretrained("cahya/bert2gpt-indonesian-summarization")

# 
ARTICLE_TO_SUMMARIZE = ""

# generate summary
input_ids = tokenizer.encode(ARTICLE_TO_SUMMARIZE, return_tensors='pt')
summary_ids = model.generate(input_ids,
            min_length=20,
            max_length=80, 
            num_beams=10,
            repetition_penalty=2.5, 
            length_penalty=1.0, 
            early_stopping=True,
            no_repeat_ngram_size=2,
            use_cache=True,
            do_sample = True,
            temperature = 0.8,
            top_k = 50,
            top_p = 0.95)

summary_text = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary_text)

高度な使用法

上記のコードは基本的な使用例です。パラメータを調整することで、要約の品質をさらに向上させることができます。

# 高度な使用法の説明
# パラメータを調整することで、要約の品質を最適化できます。
from transformers import BertTokenizer, EncoderDecoderModel

tokenizer = BertTokenizer.from_pretrained("cahya/bert2gpt-indonesian-summarization")
tokenizer.bos_token = tokenizer.cls_token
tokenizer.eos_token = tokenizer.sep_token
model = EncoderDecoderModel.from_pretrained("cahya/bert2gpt-indonesian-summarization")

# 
ARTICLE_TO_SUMMARIZE = ""

# generate summary
input_ids = tokenizer.encode(ARTICLE_TO_SUMMARIZE, return_tensors='pt')
summary_ids = model.generate(input_ids,
            min_length=20,
            max_length=80, 
            num_beams=10,
            repetition_penalty=2.5, 
            length_penalty=1.0, 
            early_stopping=True,
            no_repeat_ngram_size=2,
            use_cache=True,
            do_sample = True,
            temperature = 0.8,
            top_k = 50,
            top_p = 0.95)

summary_text = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary_text)

📚 ドキュメント

微調整コーパス

bert2gpt-indonesian-summarizationモデルは、cahya氏によるcahya/bert-base-indonesian-1.5Gとcahya/gpt2-small-indonesian-522Mをベースに、id_liputan6データセットを使用して微調整されています。