khmer-mt5-summarization-1024tk-V2开源高棉语文本摘要模型

首页

Khmer Mt5 Summarization 1024tk V2

由 songhieng 开发

基于mT5-small改进的高棉语文本摘要模型，支持最长1024词元的输入，适用于高棉语文章、段落或文档的摘要生成。

文本生成

Transformers

其他开源协议:Apache-2.0 #高棉语文本摘要 #长文本支持 #mT5微调

下载量 16

发布时间 : 2/16/2025

模型简介

该模型是google/mt5-small的微调版本，专门用于高棉语文本摘要任务。在原有数据集基础上增加了kimleang123/rfi_news数据，提升了摘要性能。

模型特点

长文本支持

支持最长1024词元的高棉语文本输入，适合处理较长文档。

改进的数据集

在原有数据集基础上增加了kimleang123/rfi_news数据，提升了摘要质量。

高效推理

基于mT5-small架构，在保持较好性能的同时具有较高的推理效率。

模型能力

高棉语文本摘要

长文本处理

使用案例

新闻摘要

高棉语新闻自动摘要

对高棉语新闻文章进行自动摘要生成，提取关键信息。

文档处理

高棉语文档摘要

对高棉语长文档进行自动摘要，帮助快速理解内容。

🚀 高棉语mT5摘要模型（1024个标记） - V2

本项目是一个用于高棉语文本摘要的模型，基于google/mt5-small微调而来。通过在扩展数据集上训练，该模型在高棉语文本摘要任务上表现出色。

🚀 快速开始

安装依赖

确保你已经安装了transformers、torch和datasets：

pip install transformers torch datasets

加载模型

要加载并使用微调后的模型，可以使用以下代码：

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

model_name = "songhieng/khmer-mt5-summarization-1024tk-V2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

✨ 主要特性

基础模型：google/mt5-small
微调任务：高棉语文本摘要，支持扩展输入长度
训练数据集：kimleang123/rfi_news + 之前的数据集
框架：Hugging Face transformers
任务类型：序列到序列（Seq2Seq）
输入：最多1024个标记的高棉语文本（文章、段落或文档）
输出：摘要后的高棉语文本
训练硬件：GPU（Tesla T4）
评估指标：ROUGE分数

📦 安装指南

1️⃣ 安装依赖

确保你已经安装了transformers、torch和datasets：

pip install transformers torch datasets

2️⃣ 加载模型

要加载并使用微调后的模型，可以使用以下代码：

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

model_name = "songhieng/khmer-mt5-summarization-1024tk-V2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

💻 使用示例

基础用法

使用Python代码

def summarize_khmer(text, max_length=150):
    input_text = f"summarize: {text}"
    inputs = tokenizer(input_text, return_tensors="pt", truncation=True, max_length=1024)
    summary_ids = model.generate(**inputs, max_length=max_length, num_beams=5, length_penalty=2.0, early_stopping=True)
    summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
    return summary

khmer_text = "កម្ពុជាមានប្រជាជនប្រមាណ ១៦ លាននាក់ ហើយវាគឺជាប្រទេសនៅតំបន់អាស៊ីអាគ្នេយ៍។"
summary = summarize_khmer(khmer_text)
print("Khmer Summary:", summary)

使用Hugging Face Pipeline

from transformers import pipeline

summarizer = pipeline("summarization", model="songhieng/khmer-mt5-summarization-1024tk-V2")
khmer_text = "កម្ពុជាមានប្រជាជនប្រមាណ ១៦ លាននាក់ ហើយវាគឺជាប្រទេសនៅតំបន់អាស៊ីអាគ្នេយ៍។"
summary = summarizer(khmer_text, max_length=150, min_length=30, do_sample=False)
print("Khmer Summary:", summary[0]['summary_text'])

高级用法

使用FastAPI部署为API

from fastapi import FastAPI

app = FastAPI()

@app.post("/summarize/")
def summarize(text: str):
    inputs = tokenizer(f"summarize: {text}", return_tensors="pt", truncation=True, max_length=1024)
    summary_ids = model.generate(**inputs, max_length=150, num_beams=5, length_penalty=2.0, early_stopping=True)
    summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
    return {"summary": summary}

# Run with: uvicorn filename:app --reload

🔧 技术细节

模型评估

该模型使用ROUGE分数进行评估，该分数用于衡量生成摘要与参考摘要之间的相似度。

from datasets import load_metric

rouge = load_metric("rouge")

def compute_metrics(pred):
    labels_ids = pred.label_ids
    pred_ids = pred.predictions
    decoded_preds = tokenizer.batch_decode(pred_ids, skip_special_tokens=True)
    decoded_labels = tokenizer.batch_decode(labels_ids, skip_special_tokens=True)
    return rouge.compute(predictions=decoded_preds, references=decoded_labels)

trainer.evaluate()

保存和上传模型

微调完成后，可以将模型上传到Hugging Face Hub：

model.push_to_hub("songhieng/khmer-mt5-summarization-1024tk-V2")
tokenizer.push_to_hub("songhieng/khmer-mt5-summarization-1024tk-V2")

要在以后下载模型，可以使用以下代码：

model = AutoModelForSeq2SeqLM.from_pretrained("songhieng/khmer-mt5-summarization-1024tk-V2")
tokenizer = AutoTokenizer.from_pretrained("songhieng/khmer-mt5-summarization-1024tk-V2")

📚 详细文档

属性	详情
基础模型	`google/mt5-small`
任务	摘要
语言	高棉语（ខ្មែរ）
数据集	`kimleang123/rfi_news` + 之前的数据集
框架	Hugging Face Transformers
评估指标	ROUGE分数
部署方式	Hugging Face模型中心、API（FastAPI）、Python代码