gpt2-bangla-summurizer开源模型 - 免费部署快速生成孟加拉语新闻摘要

首页

Gpt2 Bangla Summurizer

由 faridulreza 开发

这是一个基于GPT2架构的孟加拉语文本摘要生成模型，专门针对新闻内容进行优化。

文本生成

Transformers

其他#孟加拉语摘要 #新闻文本处理 #GPT2微调

下载量 18

发布时间 : 7/7/2023

模型简介

该模型基于flax-community/gpt2-bengali进行微调，专门用于生成孟加拉语新闻文本的摘要。主要针对报纸新闻内容，不擅长处理故事、对话等其他类型文本。

模型特点

新闻摘要优化

专门针对孟加拉语新闻内容进行训练和优化

基于GPT2架构

利用GPT2语言模型的强大生成能力

预处理功能

内置文本预处理功能，优化输入文本格式

模型能力

孟加拉语文本摘要生成

新闻内容理解

关键信息提取

使用案例

新闻媒体

新闻摘要生成

为孟加拉语新闻文章自动生成简洁摘要

帮助读者快速了解新闻要点

🚀 孟加拉语文本摘要模型

本模型旨在对孟加拉语文本进行摘要提取，通过在特定数据集上微调预训练模型，能够有效处理孟加拉语新闻文本的摘要任务。

🚀 快速开始

本模型主要用于对孟加拉语文本进行摘要提取。不过需要注意的是，由于该模型主要在报纸数据上进行训练，因此在对孟加拉语故事、对话或摘录进行摘要时效果不佳。

from transformers import GPT2LMHeadModel, AutoTokenizer
import re

tokenizer = AutoTokenizer.from_pretrained("flax-community/gpt2-bengali")
model = GPT2LMHeadModel.from_pretrained("faridulreza/gpt2-bangla-summurizer")

model.to("cuda")

BEGIN_TOKEN = "<।summary_begin।>"
END_TOKEN = " <।summary_end।>"
BEGIN_TOKEN_ALT = "<।sum_begin।>"
END_TOKEN_ALT = " <।sum_end।>"
SUMMARY_TOKEN = "<।summary।>"

def processTxt(txt):
    txt = re.sub(r"।", "। ", txt)
    txt = re.sub(r",", ", ", txt)
    txt = re.sub(r"!", "। ", txt)
    txt = re.sub(r"\?", "। ", txt)
    txt = re.sub(r"\"", "", txt)
    txt = re.sub(r"'", "", txt)
    txt = re.sub(r"’", "", txt)
    txt = re.sub(r"’", "", txt)
    txt = re.sub(r"‘", "", txt)
    txt = re.sub(r";", "। ", txt)

    txt = re.sub(r"\s+", " ", txt)

    return txt


def index_of(val, in_text, after=0):
    try:
        return in_text.index(val, after)
    except ValueError:
        return -1

def summarize(txt):
    txt = processTxt(txt.strip())
    txt = BEGIN_TOKEN + txt + SUMMARY_TOKEN

    inputs = tokenizer(txt, max_length=800, truncation=True, return_tensors="pt")
    inputs.to("cuda")
    output = model.generate(inputs["input_ids"], max_length=len(txt) + 220, pad_token_id=tokenizer.eos_token_id)

    txt = tokenizer.batch_decode(output, skip_special_tokens=True)[0]

    start = index_of(SUMMARY_TOKEN, txt) + len(SUMMARY_TOKEN)

    print("Whole text completion: \n",txt)
    if start == len(SUMMARY_TOKEN) - 1:
        return "No Summary!"

    end = index_of(END_TOKEN, txt, start)

    if end == -1:
        end = index_of(END_TOKEN_ALT, txt, start)

    if end == -1:
        end = index_of(BEGIN_TOKEN, txt, start)

    if end == -1:
        return txt[start:].strip()

    txt = txt[start:end].strip()

    end = index_of(SUMMARY_TOKEN,txt)

    if end == -1:
        return txt
    else:
        return txt[:end].strip()


summarize('your_bengali_text')

✨ 主要特性

针对性训练：基于特定的孟加拉语新闻摘要数据集进行微调，适用于孟加拉语新闻文本的摘要任务。
模型类型：采用GPT2LMHeadModel，能够有效学习文本的语言模式和语义信息。

📦 模型详情

属性	详情
模型类型	GPT2LMHeadModel
训练数据	BANSData: A Dataset for Bengali Abstractive News Summarization 和 Bangla Summarization Dataset(Prothom Alo)
开发者	Faridul Reza Sagor & Abdul Wadud Shakib
语言	孟加拉语
微调基础模型	flax-community/gpt2-bengali

💻 使用示例

基础用法

# 直接调用 summarize 函数对孟加拉语文本进行摘要
summarize('your_bengali_text')

📄 联系信息

如果您有任何问题或建议，可以通过以下邮箱联系开发者：faridul.reza.sagor@gmail.com

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库