HeackMT5-ZhSum100k開源中文文本摘要模型 - 為多樣文本生成簡潔連貫摘要

首頁

Heackmt5 ZhSum100k

由heack開發

基於mT5微調的中文文本摘要模型，在多樣化的中文數據集上訓練，能夠為各類文本生成連貫簡潔的摘要。

文本生成

Transformers

中文#中文摘要生成 #財經新聞摘要 #mT5微調

下載量 127

發布時間 : 5/17/2023

模型概述

本模型是基於mT5架構微調的中文文本摘要生成模型，主要用於對中文文本進行自動摘要生成。

模型特點

高質量中文摘要

專門針對中文文本優化，能夠生成連貫、簡潔的摘要

大規模訓練數據

使用100萬條來自中國財經新聞源的訓練樣本

商業授權靈活

提供不同企業規模的商業授權方案

模型能力

中文文本摘要生成

長文本分段摘要

財經新聞摘要

使用案例

新聞媒體

財經新聞摘要

自動生成財經新聞的簡潔摘要

ROUGE-1: 56.46, ROUGE-2: 45.81

企業應用

商業報告摘要

自動生成商業報告的要點摘要

🚀 HeackMT5-ZhSum100k：中文文本摘要模型

heack/HeackMT5-ZhSum100k 是一個針對中文文本摘要任務微調的 mT5 模型。它在多樣化的中文數據集上進行訓練，能夠為廣泛的文本生成連貫且簡潔的摘要。

✨ 主要特性

該模型基於 mT5 架構，專為中文文本摘要任務進行微調。
訓練數據主要來源於中文財經新聞，不包含 BBC 或 CNN 等國際媒體的內容，訓練數據包含 100 萬行。
經過 10 個輪次的微調訓練，能夠生成高質量的摘要。

📦 安裝指南

此部分原文檔未提供具體安裝命令，故跳過。

💻 使用示例

基礎用法

from transformers import MT5ForConditionalGeneration, T5Tokenizer

model = MT5ForConditionalGeneration.from_pretrained("heack/HeackMT5-ZhSum100k")
tokenizer = T5Tokenizer.from_pretrained("heack/HeackMT5-ZhSum100k")

chunk = """
財聯社5月22日訊，據平安包頭微信公眾號消息，近日，包頭警方發佈一起利用人工智能（AI）實施電信詐騙的典型案例，福州市某科技公司法人代表郭先生10分鐘內被騙430萬元。
4月20日中午，郭先生的好友突然通過微信視頻聯繫他，自己的朋友在外地競標，需要430萬保證金，且需要公對公賬戶過賬，想要借郭先生公司的賬戶走賬。
基於對好友的信任，加上已經視頻聊天核實了身份，郭先生沒有核實錢款是否到賬，就分兩筆把430萬轉到了好友朋友的銀行卡上。郭先生撥打好友電話，才知道被騙。騙子通過智能AI換臉和擬聲技術，佯裝好友對他實施了詐騙。
值得注意的是，騙子並沒有使用一個仿真的好友微信添加郭先生為好友，而是直接用好友微信發起視頻聊天，這也是郭先生被騙的原因之一。騙子極有可能通過技術手段盜用了郭先生好友的微信。幸運的是，接到報警後，福州、包頭兩地警銀迅速啟動止付機制，成功止付攔截336.84萬元，但仍有93.16萬元被轉移，目前正在全力追繳中。
"""
inputs = tokenizer.encode("summarize: " + chunk, return_tensors='pt', max_length=512, truncation=True)
summary_ids = model.generate(inputs, max_length=150, num_beams=4, length_penalty=1.5, no_repeat_ngram_size=2)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print(summary)

包頭警方發佈一起利用AI實施電信詐騙典型案例:法人代表10分鐘內被騙430萬元

高級用法

from transformers import MT5ForConditionalGeneration, T5Tokenizer

model_heack = MT5ForConditionalGeneration.from_pretrained("heack/HeackMT5-ZhSum100k")
tokenizer_heack = T5Tokenizer.from_pretrained("heack/HeackMT5-ZhSum100k")


def _split_text(text, length):
    chunks = []
    start = 0
    while start < len(text):
        if len(text) - start > length:
            pos_forward = start + length
            pos_backward = start + length
            pos = start + length
            while (pos_forward < len(text)) and (pos_backward >= 0) and (pos_forward < 20 + pos) and  (pos_backward + 20 > pos) and text[pos_forward] not in {'.', '。','，',','} and text[pos_backward] not in {'.', '。','，',','}:
                pos_forward += 1
                pos_backward -= 1
            if pos_forward - pos >= 20 and pos_backward <= pos - 20:
                pos = start + length
            elif text[pos_backward] in {'.', '。','，',','}:
                pos = pos_backward
            else:
                pos = pos_forward
            chunks.append(text[start:pos+1])
            start = pos + 1
        else:
            chunks.append(text[start:])
            break
    # Combine last chunk with previous one if it's too short
    if len(chunks) > 1 and len(chunks[-1]) < 100:
        chunks[-2] += chunks[-1]
        chunks.pop()
    return chunks

def get_summary_heack(text, each_summary_length=150):
    chunks = _split_text(text, 300)
    summaries = []
    for chunk in chunks:
        inputs = tokenizer_heack.encode("summarize: " + chunk, return_tensors='pt', max_length=512, truncation=True)
        summary_ids = model_heack.generate(inputs, max_length=each_summary_length, num_beams=4, length_penalty=1.5, no_repeat_ngram_size=2)
        summary = tokenizer_heack.decode(summary_ids[0], skip_special_tokens=True)
        summaries.append(summary)
    return " ".join(summaries)

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	mT5
語言	中文
訓練數據	主要為中文財經新聞來源，不包含 BBC 或 CNN 來源，訓練數據包含 100 萬行。
微調輪次	10

評估結果

該模型取得了以下評估結果：

ROUGE - 1：56.46
ROUGE - 2：45.81
ROUGE - L：52.98
ROUGE - Lsum：20.22

🔧 技術細節

此部分原文檔未提供具體技術說明，故跳過。

📄 許可證

為維護開源生態的可持續發展，並確保開發者能持續優化模型質量，我們制定以下條款：

定義

“衍生作品” 指通過量化、剪枝、蒸餾、架構修改等技術手段，直接或間接基於本模型產生的任何變體，包括但不限於：

GGUF/GGML 等量化格式轉換產物
通過知識蒸餾獲得的輕量化模型
基於本模型參數進行的架構調整（如層數修改、注意力機制變更）

1. 數據與訓練成本說明

訓練高質量 AI 模型需耗費鉅額資源：

數據清洗與標註成本佔項目總投入的 60% 以上，且全部採用國內合規數據源，避免國際媒體（如 BBC）對中文語境的曲解性“幻覺翻譯”。
本項目堅持使用中立、客觀的語料，旨在傳播技術普惠性，促進人類理解與文明互鑑。

2. 商業授權條款

非商業用途：免費
商業用途：若需用於商業場景（包括企業產品/服務），收費標準如下： | 企業類型 | 永久授權費（人民幣元） | | ---- | ---- | | 初創企業或個人（年營業額 100 萬以下） | 1,000 元 | | 中型企業（年營業額 100 萬以上的非上市公司） | 5,000 元 | | 上市公司 | 20,000 元 |

掃碼支付後，您的 Hugging Face 賬號將獲得商業使用權，每家企業僅限綁定 1 個主賬號。商業授權範圍包括對衍生作品的商業性使用，無論其是否經過格式轉換或架構修改。

支付方式：
支付二維碼

3. 原始數據服務

如需獲取原始訓練數據，請通過上述二維碼支付 5000 元 並郵件聯繫 weixin: kongyang

引用信息

如果您在研究中使用了該模型，請引用：

@misc{kongyang2023heackmt5zhsum100k,
    title={HeackMT5-ZhSum100k: A Large-Scale Multilingual Abstractive Summarization for Chinese Texts},
    author={Kong Yang},
    year={2023}
}