HeackMT5-ZhSum100k开源中文文本摘要模型 - 为多样文本生成简洁连贯摘要

首页

Heackmt5 ZhSum100k

由 heack 开发

基于mT5微调的中文文本摘要模型，在多样化的中文数据集上训练，能够为各类文本生成连贯简洁的摘要。

文本生成

Transformers

中文#中文摘要生成 #财经新闻摘要 #mT5微调

下载量 127

发布时间 : 5/17/2023

模型简介

本模型是基于mT5架构微调的中文文本摘要生成模型，主要用于对中文文本进行自动摘要生成。

模型特点

高质量中文摘要

专门针对中文文本优化，能够生成连贯、简洁的摘要

大规模训练数据

使用100万条来自中国财经新闻源的训练样本

商业授权灵活

提供不同企业规模的商业授权方案

模型能力

中文文本摘要生成

长文本分段摘要

财经新闻摘要

使用案例

新闻媒体

财经新闻摘要

自动生成财经新闻的简洁摘要

ROUGE-1: 56.46, ROUGE-2: 45.81

企业应用

商业报告摘要

自动生成商业报告的要点摘要

🚀 HeackMT5-ZhSum100k：中文文本摘要模型

heack/HeackMT5-ZhSum100k 是一个针对中文文本摘要任务微调的 mT5 模型。它在多样化的中文数据集上进行训练，能够为广泛的文本生成连贯且简洁的摘要。

✨ 主要特性

该模型基于 mT5 架构，专为中文文本摘要任务进行微调。
训练数据主要来源于中文财经新闻，不包含 BBC 或 CNN 等国际媒体的内容，训练数据包含 100 万行。
经过 10 个轮次的微调训练，能够生成高质量的摘要。

📦 安装指南

此部分原文档未提供具体安装命令，故跳过。

💻 使用示例

基础用法

from transformers import MT5ForConditionalGeneration, T5Tokenizer

model = MT5ForConditionalGeneration.from_pretrained("heack/HeackMT5-ZhSum100k")
tokenizer = T5Tokenizer.from_pretrained("heack/HeackMT5-ZhSum100k")

chunk = """
财联社5月22日讯，据平安包头微信公众号消息，近日，包头警方发布一起利用人工智能（AI）实施电信诈骗的典型案例，福州市某科技公司法人代表郭先生10分钟内被骗430万元。
4月20日中午，郭先生的好友突然通过微信视频联系他，自己的朋友在外地竞标，需要430万保证金，且需要公对公账户过账，想要借郭先生公司的账户走账。
基于对好友的信任，加上已经视频聊天核实了身份，郭先生没有核实钱款是否到账，就分两笔把430万转到了好友朋友的银行卡上。郭先生拨打好友电话，才知道被骗。骗子通过智能AI换脸和拟声技术，佯装好友对他实施了诈骗。
值得注意的是，骗子并没有使用一个仿真的好友微信添加郭先生为好友，而是直接用好友微信发起视频聊天，这也是郭先生被骗的原因之一。骗子极有可能通过技术手段盗用了郭先生好友的微信。幸运的是，接到报警后，福州、包头两地警银迅速启动止付机制，成功止付拦截336.84万元，但仍有93.16万元被转移，目前正在全力追缴中。
"""
inputs = tokenizer.encode("summarize: " + chunk, return_tensors='pt', max_length=512, truncation=True)
summary_ids = model.generate(inputs, max_length=150, num_beams=4, length_penalty=1.5, no_repeat_ngram_size=2)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print(summary)

包头警方发布一起利用AI实施电信诈骗典型案例:法人代表10分钟内被骗430万元

高级用法

from transformers import MT5ForConditionalGeneration, T5Tokenizer

model_heack = MT5ForConditionalGeneration.from_pretrained("heack/HeackMT5-ZhSum100k")
tokenizer_heack = T5Tokenizer.from_pretrained("heack/HeackMT5-ZhSum100k")


def _split_text(text, length):
    chunks = []
    start = 0
    while start < len(text):
        if len(text) - start > length:
            pos_forward = start + length
            pos_backward = start + length
            pos = start + length
            while (pos_forward < len(text)) and (pos_backward >= 0) and (pos_forward < 20 + pos) and  (pos_backward + 20 > pos) and text[pos_forward] not in {'.', '。','，',','} and text[pos_backward] not in {'.', '。','，',','}:
                pos_forward += 1
                pos_backward -= 1
            if pos_forward - pos >= 20 and pos_backward <= pos - 20:
                pos = start + length
            elif text[pos_backward] in {'.', '。','，',','}:
                pos = pos_backward
            else:
                pos = pos_forward
            chunks.append(text[start:pos+1])
            start = pos + 1
        else:
            chunks.append(text[start:])
            break
    # Combine last chunk with previous one if it's too short
    if len(chunks) > 1 and len(chunks[-1]) < 100:
        chunks[-2] += chunks[-1]
        chunks.pop()
    return chunks

def get_summary_heack(text, each_summary_length=150):
    chunks = _split_text(text, 300)
    summaries = []
    for chunk in chunks:
        inputs = tokenizer_heack.encode("summarize: " + chunk, return_tensors='pt', max_length=512, truncation=True)
        summary_ids = model_heack.generate(inputs, max_length=each_summary_length, num_beams=4, length_penalty=1.5, no_repeat_ngram_size=2)
        summary = tokenizer_heack.decode(summary_ids[0], skip_special_tokens=True)
        summaries.append(summary)
    return " ".join(summaries)

📚 详细文档

模型详情

属性	详情
模型类型	mT5
语言	中文
训练数据	主要为中文财经新闻来源，不包含 BBC 或 CNN 来源，训练数据包含 100 万行。
微调轮次	10

评估结果

该模型取得了以下评估结果：

ROUGE - 1：56.46
ROUGE - 2：45.81
ROUGE - L：52.98
ROUGE - Lsum：20.22

🔧 技术细节

此部分原文档未提供具体技术说明，故跳过。

📄 许可证

为维护开源生态的可持续发展，并确保开发者能持续优化模型质量，我们制定以下条款：

定义

“衍生作品” 指通过量化、剪枝、蒸馏、架构修改等技术手段，直接或间接基于本模型产生的任何变体，包括但不限于：

GGUF/GGML 等量化格式转换产物
通过知识蒸馏获得的轻量化模型
基于本模型参数进行的架构调整（如层数修改、注意力机制变更）

1. 数据与训练成本说明

训练高质量 AI 模型需耗费巨额资源：

数据清洗与标注成本占项目总投入的 60% 以上，且全部采用国内合规数据源，避免国际媒体（如 BBC）对中文语境的曲解性“幻觉翻译”。
本项目坚持使用中立、客观的语料，旨在传播技术普惠性，促进人类理解与文明互鉴。

2. 商业授权条款

非商业用途：免费
商业用途：若需用于商业场景（包括企业产品/服务），收费标准如下： | 企业类型 | 永久授权费（人民币元） | | ---- | ---- | | 初创企业或个人（年营业额 100 万以下） | 1,000 元 | | 中型企业（年营业额 100 万以上的非上市公司） | 5,000 元 | | 上市公司 | 20,000 元 |

扫码支付后，您的 Hugging Face 账号将获得商业使用权，每家企业仅限绑定 1 个主账号。商业授权范围包括对衍生作品的商业性使用，无论其是否经过格式转换或架构修改。

支付方式：
支付二维码

3. 原始数据服务

如需获取原始训练数据，请通过上述二维码支付 5000 元 并邮件联系 weixin: kongyang

引用信息

如果您在研究中使用了该模型，请引用：

@misc{kongyang2023heackmt5zhsum100k,
    title={HeackMT5-ZhSum100k: A Large-Scale Multilingual Abstractive Summarization for Chinese Texts},
    author={Kong Yang},
    year={2023}
}