gpt2-bangla-summurizerオープンソースモデル - 無料でデプロイし、ベンガル語のニュース要約を素早く生成

ホーム

Gpt2 Bangla Summurizer

faridulrezaによって開発

これはGPT2アーキテクチャに基づくベンガル語テキスト要約生成モデルで、特にニュースコンテンツに最適化されています。

テキスト生成

Transformers

その他#ベンガル語要約 #ニューステキスト処理 #GPT2ファインチューニング

ダウンロード数 18

リリース時間 : 7/7/2023

モデル概要

このモデルはflax-community/gpt2-bengaliをファインチューニングしたもので、ベンガル語ニューステキストの要約生成に特化しています。主に新聞記事の内容を対象としており、物語や対話などの他のタイプのテキストには適していません。

モデル特徴

ニュース要約最適化

ベンガル語ニュースコンテンツに特化してトレーニングと最適化を実施

GPT2アーキテクチャベース

GPT2言語モデルの強力な生成能力を活用

前処理機能

テキスト前処理機能を内蔵し、入力テキスト形式を最適化

モデル能力

ベンガル語テキスト要約生成

ニュースコンテンツ理解

キー情報抽出

使用事例

ニュースメディア

ニュース要約生成

ベンガル語ニュース記事の自動要約生成

読者がニュースの要点を素早く理解するのに役立つ

🚀 このモデルはベンガル語の文章を要約することを目的としています。

このモデルは、ベンガル語の文章を要約することを目的として開発されています。

🚀 クイックスタート

このモデルは、ベンガル語の文章を要約するために使用できます。ただし、主に新聞のデータで学習されているため、ベンガル語の物語や対話、抜粋の要約には適していません。

✨ 主な機能

ベンガル語の文章を要約することができます。

📦 インストール

このセクションでは、インストールに関する具体的な手順が提供されていません。

💻 使用例

基本的な使用法

from transformers import GPT2LMHeadModel, AutoTokenizer
import re

tokenizer = AutoTokenizer.from_pretrained("flax-community/gpt2-bengali")
model = GPT2LMHeadModel.from_pretrained("faridulreza/gpt2-bangla-summurizer")

model.to("cuda")

BEGIN_TOKEN = "<।summary_begin।>"
END_TOKEN = " <।summary_end।>"
BEGIN_TOKEN_ALT = "<।sum_begin।>"
END_TOKEN_ALT = " <।sum_end।>"
SUMMARY_TOKEN = "<।summary।>"

def processTxt(txt):
    txt = re.sub(r"।", "। ", txt)
    txt = re.sub(r",", ", ", txt)
    txt = re.sub(r"!", "। ", txt)
    txt = re.sub(r"\?", "। ", txt)
    txt = re.sub(r"\"", "", txt)
    txt = re.sub(r"'", "", txt)
    txt = re.sub(r"’", "", txt)
    txt = re.sub(r"’", "", txt)
    txt = re.sub(r"‘", "", txt)
    txt = re.sub(r";", "। ", txt)

    txt = re.sub(r"\s+", " ", txt)

    return txt


def index_of(val, in_text, after=0):
    try:
        return in_text.index(val, after)
    except ValueError:
        return -1

def summarize(txt):
    txt = processTxt(txt.strip())
    txt = BEGIN_TOKEN + txt + SUMMARY_TOKEN

    inputs = tokenizer(txt, max_length=800, truncation=True, return_tensors="pt")
    inputs.to("cuda")
    output = model.generate(inputs["input_ids"], max_length=len(txt) + 220, pad_token_id=tokenizer.eos_token_id)

    txt = tokenizer.batch_decode(output, skip_special_tokens=True)[0]

    start = index_of(SUMMARY_TOKEN, txt) + len(SUMMARY_TOKEN)

    print("Whole text completion: \n",txt)
    if start == len(SUMMARY_TOKEN) - 1:
        return "No Summary!"

    end = index_of(END_TOKEN, txt, start)

    if end == -1:
        end = index_of(END_TOKEN_ALT, txt, start)

    if end == -1:
        end = index_of(BEGIN_TOKEN, txt, start)

    if end == -1:
        return txt[start:].strip()

    txt = txt[start:end].strip()

    end = index_of(SUMMARY_TOKEN,txt)

    if end == -1:
        return txt
    else:
        return txt[:end].strip()



summarize('your_bengali_text')

📚 ドキュメント

モデルの説明

flax-community/gpt2-bengali は、以下のデータセットでファインチューニングされました。

BANSData: A Dataset for Bengali Abstractive News Summarization
Bangla Summarization Dataset(Prothom Alo)
開発者: Faridul Reza Sagor & Abdul Wadud Shakib
モデルの種類: GPT2LMHeadModel
言語 (NLP): ベンガル語
ファインチューニング元のモデル: flax-community/gpt2-bengali

利用に関する注意事項

⚠️ 重要提示

このモデルは主に新聞のデータで学習されているため、ベンガル語の物語や対話、抜粋の要約には適していません。

連絡先

faridul.reza.sagor@gmail.com

属性	详情
モデルの種類	GPT2LMHeadModel
学習データ	BANSData: A Dataset for Bengali Abstractive News Summarization と Bangla Summarization Dataset(Prothom Alo)