Heackmt5 ZhSum100k
H
Heackmt5 ZhSum100k
由heack開發
基於mT5微調的中文文本摘要模型,在多樣化的中文數據集上訓練,能夠為各類文本生成連貫簡潔的摘要。
下載量 127
發布時間 : 5/17/2023
模型概述
本模型是基於mT5架構微調的中文文本摘要生成模型,主要用於對中文文本進行自動摘要生成。
模型特點
高質量中文摘要
專門針對中文文本優化,能夠生成連貫、簡潔的摘要
大規模訓練數據
使用100萬條來自中國財經新聞源的訓練樣本
商業授權靈活
提供不同企業規模的商業授權方案
模型能力
中文文本摘要生成
長文本分段摘要
財經新聞摘要
使用案例
新聞媒體
財經新聞摘要
自動生成財經新聞的簡潔摘要
ROUGE-1: 56.46, ROUGE-2: 45.81
企業應用
商業報告摘要
自動生成商業報告的要點摘要
🚀 HeackMT5-ZhSum100k:中文文本摘要模型
heack/HeackMT5-ZhSum100k
是一個針對中文文本摘要任務微調的 mT5 模型。它在多樣化的中文數據集上進行訓練,能夠為廣泛的文本生成連貫且簡潔的摘要。
✨ 主要特性
- 該模型基於 mT5 架構,專為中文文本摘要任務進行微調。
- 訓練數據主要來源於中文財經新聞,不包含 BBC 或 CNN 等國際媒體的內容,訓練數據包含 100 萬行。
- 經過 10 個輪次的微調訓練,能夠生成高質量的摘要。
📦 安裝指南
此部分原文檔未提供具體安裝命令,故跳過。
💻 使用示例
基礎用法
from transformers import MT5ForConditionalGeneration, T5Tokenizer
model = MT5ForConditionalGeneration.from_pretrained("heack/HeackMT5-ZhSum100k")
tokenizer = T5Tokenizer.from_pretrained("heack/HeackMT5-ZhSum100k")
chunk = """
財聯社5月22日訊,據平安包頭微信公眾號消息,近日,包頭警方發佈一起利用人工智能(AI)實施電信詐騙的典型案例,福州市某科技公司法人代表郭先生10分鐘內被騙430萬元。
4月20日中午,郭先生的好友突然通過微信視頻聯繫他,自己的朋友在外地競標,需要430萬保證金,且需要公對公賬戶過賬,想要借郭先生公司的賬戶走賬。
基於對好友的信任,加上已經視頻聊天核實了身份,郭先生沒有核實錢款是否到賬,就分兩筆把430萬轉到了好友朋友的銀行卡上。郭先生撥打好友電話,才知道被騙。騙子通過智能AI換臉和擬聲技術,佯裝好友對他實施了詐騙。
值得注意的是,騙子並沒有使用一個仿真的好友微信添加郭先生為好友,而是直接用好友微信發起視頻聊天,這也是郭先生被騙的原因之一。騙子極有可能通過技術手段盜用了郭先生好友的微信。幸運的是,接到報警後,福州、包頭兩地警銀迅速啟動止付機制,成功止付攔截336.84萬元,但仍有93.16萬元被轉移,目前正在全力追繳中。
"""
inputs = tokenizer.encode("summarize: " + chunk, return_tensors='pt', max_length=512, truncation=True)
summary_ids = model.generate(inputs, max_length=150, num_beams=4, length_penalty=1.5, no_repeat_ngram_size=2)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary)
包頭警方發佈一起利用AI實施電信詐騙典型案例:法人代表10分鐘內被騙430萬元
高級用法
from transformers import MT5ForConditionalGeneration, T5Tokenizer
model_heack = MT5ForConditionalGeneration.from_pretrained("heack/HeackMT5-ZhSum100k")
tokenizer_heack = T5Tokenizer.from_pretrained("heack/HeackMT5-ZhSum100k")
def _split_text(text, length):
chunks = []
start = 0
while start < len(text):
if len(text) - start > length:
pos_forward = start + length
pos_backward = start + length
pos = start + length
while (pos_forward < len(text)) and (pos_backward >= 0) and (pos_forward < 20 + pos) and (pos_backward + 20 > pos) and text[pos_forward] not in {'.', '。',',',','} and text[pos_backward] not in {'.', '。',',',','}:
pos_forward += 1
pos_backward -= 1
if pos_forward - pos >= 20 and pos_backward <= pos - 20:
pos = start + length
elif text[pos_backward] in {'.', '。',',',','}:
pos = pos_backward
else:
pos = pos_forward
chunks.append(text[start:pos+1])
start = pos + 1
else:
chunks.append(text[start:])
break
# Combine last chunk with previous one if it's too short
if len(chunks) > 1 and len(chunks[-1]) < 100:
chunks[-2] += chunks[-1]
chunks.pop()
return chunks
def get_summary_heack(text, each_summary_length=150):
chunks = _split_text(text, 300)
summaries = []
for chunk in chunks:
inputs = tokenizer_heack.encode("summarize: " + chunk, return_tensors='pt', max_length=512, truncation=True)
summary_ids = model_heack.generate(inputs, max_length=each_summary_length, num_beams=4, length_penalty=1.5, no_repeat_ngram_size=2)
summary = tokenizer_heack.decode(summary_ids[0], skip_special_tokens=True)
summaries.append(summary)
return " ".join(summaries)
📚 詳細文檔
模型詳情
屬性 | 詳情 |
---|---|
模型類型 | mT5 |
語言 | 中文 |
訓練數據 | 主要為中文財經新聞來源,不包含 BBC 或 CNN 來源,訓練數據包含 100 萬行。 |
微調輪次 | 10 |
評估結果
該模型取得了以下評估結果:
- ROUGE - 1:56.46
- ROUGE - 2:45.81
- ROUGE - L:52.98
- ROUGE - Lsum:20.22
🔧 技術細節
此部分原文檔未提供具體技術說明,故跳過。
📄 許可證
為維護開源生態的可持續發展,並確保開發者能持續優化模型質量,我們制定以下條款:
定義
“衍生作品” 指通過量化、剪枝、蒸餾、架構修改等技術手段,直接或間接基於本模型產生的任何變體,包括但不限於:
- GGUF/GGML 等量化格式轉換產物
- 通過知識蒸餾獲得的輕量化模型
- 基於本模型參數進行的架構調整(如層數修改、注意力機制變更)
1. 數據與訓練成本說明
訓練高質量 AI 模型需耗費鉅額資源:
- 數據清洗與標註成本佔項目總投入的 60% 以上,且全部採用國內合規數據源,避免國際媒體(如 BBC)對中文語境的曲解性“幻覺翻譯”。
- 本項目堅持使用中立、客觀的語料,旨在傳播技術普惠性,促進人類理解與文明互鑑。
2. 商業授權條款
- 非商業用途:免費
- 商業用途:若需用於商業場景(包括企業產品/服務),收費標準如下: | 企業類型 | 永久授權費(人民幣元) | | ---- | ---- | | 初創企業或個人(年營業額 100 萬以下) | 1,000 元 | | 中型企業(年營業額 100 萬以上的非上市公司) | 5,000 元 | | 上市公司 | 20,000 元 |
掃碼支付後,您的 Hugging Face 賬號將獲得商業使用權,每家企業僅限綁定 1 個主賬號。商業授權範圍包括對衍生作品的商業性使用,無論其是否經過格式轉換或架構修改。
支付方式:
3. 原始數據服務
如需獲取原始訓練數據,請通過上述二維碼支付 5000 元 並郵件聯繫 weixin: kongyang
引用信息
如果您在研究中使用了該模型,請引用:
@misc{kongyang2023heackmt5zhsum100k,
title={HeackMT5-ZhSum100k: A Large-Scale Multilingual Abstractive Summarization for Chinese Texts},
author={Kong Yang},
year={2023}
}
開發者信息
該模型由上海交通大學的 KongYang 訓練和維護。如有任何問題,請通過微信 ID:kongyang 聯繫我。
我們相信:技術向善,開源共榮
Our Belief: Ethical Tech Thrives Through Open Collaboration
Bart Large Cnn
MIT
基於英語語料預訓練的BART模型,專門針對CNN每日郵報數據集進行微調,適用於文本摘要任務
文本生成 英語
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一個基於T5的釋義框架,專為加速訓練自然語言理解(NLU)模型而設計,通過生成高質量釋義實現數據增強。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸餾版本,專門針對文本摘要任務進行了優化,在保持較高性能的同時顯著提升了推理速度。
文本生成 英語
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基於T5架構的模型,專門用於從摘要文本中提取原子聲明,是摘要事實性評估流程的關鍵組件。
文本生成
Transformers 英語

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一個統一的多維評估器,用於自然語言生成任務的自動評估,支持多個可解釋維度的評估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基於PEGASUS架構微調的文本複述模型,能夠生成語義相同但表達不同的句子。
文本生成
Transformers 英語

P
tuner007
209.03k
185
T5 Base Korean Summarization
這是一個基於T5架構的韓語文本摘要模型,專為韓語文本摘要任務設計,通過微調paust/pko-t5-base模型在多個韓語數據集上訓練而成。
文本生成
Transformers 韓語

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一種基於Transformer的預訓練模型,專門用於抽象文本摘要任務。
文本生成 英語
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基於BART-large架構的對話摘要模型,專為SAMSum語料庫微調,適用於生成對話摘要。
文本生成
Transformers 英語

B
philschmid
141.28k
258
Kobart Summarization
MIT
基於KoBART架構的韓語文本摘要模型,能夠生成韓語新聞文章的簡潔摘要。
文本生成
Transformers 韓語

K
gogamza
119.18k
12
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98