Heackmt5 ZhSum100k
H
Heackmt5 ZhSum100k
由 heack 开发
基于mT5微调的中文文本摘要模型,在多样化的中文数据集上训练,能够为各类文本生成连贯简洁的摘要。
下载量 127
发布时间 : 5/17/2023
模型简介
本模型是基于mT5架构微调的中文文本摘要生成模型,主要用于对中文文本进行自动摘要生成。
模型特点
高质量中文摘要
专门针对中文文本优化,能够生成连贯、简洁的摘要
大规模训练数据
使用100万条来自中国财经新闻源的训练样本
商业授权灵活
提供不同企业规模的商业授权方案
模型能力
中文文本摘要生成
长文本分段摘要
财经新闻摘要
使用案例
新闻媒体
财经新闻摘要
自动生成财经新闻的简洁摘要
ROUGE-1: 56.46, ROUGE-2: 45.81
企业应用
商业报告摘要
自动生成商业报告的要点摘要
🚀 HeackMT5-ZhSum100k:中文文本摘要模型
heack/HeackMT5-ZhSum100k
是一个针对中文文本摘要任务微调的 mT5 模型。它在多样化的中文数据集上进行训练,能够为广泛的文本生成连贯且简洁的摘要。
✨ 主要特性
- 该模型基于 mT5 架构,专为中文文本摘要任务进行微调。
- 训练数据主要来源于中文财经新闻,不包含 BBC 或 CNN 等国际媒体的内容,训练数据包含 100 万行。
- 经过 10 个轮次的微调训练,能够生成高质量的摘要。
📦 安装指南
此部分原文档未提供具体安装命令,故跳过。
💻 使用示例
基础用法
from transformers import MT5ForConditionalGeneration, T5Tokenizer
model = MT5ForConditionalGeneration.from_pretrained("heack/HeackMT5-ZhSum100k")
tokenizer = T5Tokenizer.from_pretrained("heack/HeackMT5-ZhSum100k")
chunk = """
财联社5月22日讯,据平安包头微信公众号消息,近日,包头警方发布一起利用人工智能(AI)实施电信诈骗的典型案例,福州市某科技公司法人代表郭先生10分钟内被骗430万元。
4月20日中午,郭先生的好友突然通过微信视频联系他,自己的朋友在外地竞标,需要430万保证金,且需要公对公账户过账,想要借郭先生公司的账户走账。
基于对好友的信任,加上已经视频聊天核实了身份,郭先生没有核实钱款是否到账,就分两笔把430万转到了好友朋友的银行卡上。郭先生拨打好友电话,才知道被骗。骗子通过智能AI换脸和拟声技术,佯装好友对他实施了诈骗。
值得注意的是,骗子并没有使用一个仿真的好友微信添加郭先生为好友,而是直接用好友微信发起视频聊天,这也是郭先生被骗的原因之一。骗子极有可能通过技术手段盗用了郭先生好友的微信。幸运的是,接到报警后,福州、包头两地警银迅速启动止付机制,成功止付拦截336.84万元,但仍有93.16万元被转移,目前正在全力追缴中。
"""
inputs = tokenizer.encode("summarize: " + chunk, return_tensors='pt', max_length=512, truncation=True)
summary_ids = model.generate(inputs, max_length=150, num_beams=4, length_penalty=1.5, no_repeat_ngram_size=2)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary)
包头警方发布一起利用AI实施电信诈骗典型案例:法人代表10分钟内被骗430万元
高级用法
from transformers import MT5ForConditionalGeneration, T5Tokenizer
model_heack = MT5ForConditionalGeneration.from_pretrained("heack/HeackMT5-ZhSum100k")
tokenizer_heack = T5Tokenizer.from_pretrained("heack/HeackMT5-ZhSum100k")
def _split_text(text, length):
chunks = []
start = 0
while start < len(text):
if len(text) - start > length:
pos_forward = start + length
pos_backward = start + length
pos = start + length
while (pos_forward < len(text)) and (pos_backward >= 0) and (pos_forward < 20 + pos) and (pos_backward + 20 > pos) and text[pos_forward] not in {'.', '。',',',','} and text[pos_backward] not in {'.', '。',',',','}:
pos_forward += 1
pos_backward -= 1
if pos_forward - pos >= 20 and pos_backward <= pos - 20:
pos = start + length
elif text[pos_backward] in {'.', '。',',',','}:
pos = pos_backward
else:
pos = pos_forward
chunks.append(text[start:pos+1])
start = pos + 1
else:
chunks.append(text[start:])
break
# Combine last chunk with previous one if it's too short
if len(chunks) > 1 and len(chunks[-1]) < 100:
chunks[-2] += chunks[-1]
chunks.pop()
return chunks
def get_summary_heack(text, each_summary_length=150):
chunks = _split_text(text, 300)
summaries = []
for chunk in chunks:
inputs = tokenizer_heack.encode("summarize: " + chunk, return_tensors='pt', max_length=512, truncation=True)
summary_ids = model_heack.generate(inputs, max_length=each_summary_length, num_beams=4, length_penalty=1.5, no_repeat_ngram_size=2)
summary = tokenizer_heack.decode(summary_ids[0], skip_special_tokens=True)
summaries.append(summary)
return " ".join(summaries)
📚 详细文档
模型详情
属性 | 详情 |
---|---|
模型类型 | mT5 |
语言 | 中文 |
训练数据 | 主要为中文财经新闻来源,不包含 BBC 或 CNN 来源,训练数据包含 100 万行。 |
微调轮次 | 10 |
评估结果
该模型取得了以下评估结果:
- ROUGE - 1:56.46
- ROUGE - 2:45.81
- ROUGE - L:52.98
- ROUGE - Lsum:20.22
🔧 技术细节
此部分原文档未提供具体技术说明,故跳过。
📄 许可证
为维护开源生态的可持续发展,并确保开发者能持续优化模型质量,我们制定以下条款:
定义
“衍生作品” 指通过量化、剪枝、蒸馏、架构修改等技术手段,直接或间接基于本模型产生的任何变体,包括但不限于:
- GGUF/GGML 等量化格式转换产物
- 通过知识蒸馏获得的轻量化模型
- 基于本模型参数进行的架构调整(如层数修改、注意力机制变更)
1. 数据与训练成本说明
训练高质量 AI 模型需耗费巨额资源:
- 数据清洗与标注成本占项目总投入的 60% 以上,且全部采用国内合规数据源,避免国际媒体(如 BBC)对中文语境的曲解性“幻觉翻译”。
- 本项目坚持使用中立、客观的语料,旨在传播技术普惠性,促进人类理解与文明互鉴。
2. 商业授权条款
- 非商业用途:免费
- 商业用途:若需用于商业场景(包括企业产品/服务),收费标准如下: | 企业类型 | 永久授权费(人民币元) | | ---- | ---- | | 初创企业或个人(年营业额 100 万以下) | 1,000 元 | | 中型企业(年营业额 100 万以上的非上市公司) | 5,000 元 | | 上市公司 | 20,000 元 |
扫码支付后,您的 Hugging Face 账号将获得商业使用权,每家企业仅限绑定 1 个主账号。商业授权范围包括对衍生作品的商业性使用,无论其是否经过格式转换或架构修改。
支付方式:
3. 原始数据服务
如需获取原始训练数据,请通过上述二维码支付 5000 元 并邮件联系 weixin: kongyang
引用信息
如果您在研究中使用了该模型,请引用:
@misc{kongyang2023heackmt5zhsum100k,
title={HeackMT5-ZhSum100k: A Large-Scale Multilingual Abstractive Summarization for Chinese Texts},
author={Kong Yang},
year={2023}
}
开发者信息
该模型由上海交通大学的 KongYang 训练和维护。如有任何问题,请通过微信 ID:kongyang 联系我。
我们相信:技术向善,开源共荣
Our Belief: Ethical Tech Thrives Through Open Collaboration
Bart Large Cnn
MIT
基于英语语料预训练的BART模型,专门针对CNN每日邮报数据集进行微调,适用于文本摘要任务
文本生成 英语
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一个基于T5的释义框架,专为加速训练自然语言理解(NLU)模型而设计,通过生成高质量释义实现数据增强。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸馏版本,专门针对文本摘要任务进行了优化,在保持较高性能的同时显著提升了推理速度。
文本生成 英语
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基于T5架构的模型,专门用于从摘要文本中提取原子声明,是摘要事实性评估流程的关键组件。
文本生成
Transformers 英语

T
Babelscape
666.36k
9
Unieval Sum
UniEval是一个统一的多维评估器,用于自然语言生成任务的自动评估,支持多个可解释维度的评估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基于PEGASUS架构微调的文本复述模型,能够生成语义相同但表达不同的句子。
文本生成
Transformers 英语

P
tuner007
209.03k
185
T5 Base Korean Summarization
这是一个基于T5架构的韩语文本摘要模型,专为韩语文本摘要任务设计,通过微调paust/pko-t5-base模型在多个韩语数据集上训练而成。
文本生成
Transformers 韩语

T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一种基于Transformer的预训练模型,专门用于抽象文本摘要任务。
文本生成 英语
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基于BART-large架构的对话摘要模型,专为SAMSum语料库微调,适用于生成对话摘要。
文本生成
Transformers 英语

B
philschmid
141.28k
258
Kobart Summarization
MIT
基于KoBART架构的韩语文本摘要模型,能够生成韩语新闻文章的简洁摘要。
文本生成
Transformers 韩语

K
gogamza
119.18k
12
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98