mt5 - base - summary開源文本摘要模型 - 免費部署生成中文文本簡潔摘要

首頁

Mt5 Base Summary

由twwch開發

基於mT5的中文文本摘要模型，能夠生成輸入文本的簡潔摘要。

文本生成

Transformers

中文開源協議:Apache-2.0 #中文文本摘要 #長文本分塊處理 #MT5架構優化

下載量 20

發布時間 : 10/26/2023

模型概述

該模型是基於mT5架構的中文文本摘要模型，主要用於對中文文本進行自動摘要生成。它能夠處理長文本輸入，並生成簡潔、連貫的摘要內容。

模型特點

中文文本摘要

專門針對中文文本優化的摘要生成能力

長文本處理

能夠處理較長的輸入文本並生成連貫摘要

高性能

基於mT5架構，具有較好的摘要生成質量

模型能力

中文文本摘要

長文本處理

關鍵信息提取

使用案例

內容摘要

新聞摘要

自動生成新聞文章的簡短摘要

生成包含主要新聞點的簡潔摘要

技術文檔摘要

對技術文檔進行摘要生成

提取技術文檔的關鍵概念和要點

🚀 twwch/mt5-base-summary 文本摘要模型

該項目提供了一個基於T5架構的文本摘要模型，可對長文本進行有效摘要提取，能廣泛應用於信息快速獲取等場景，提升信息處理效率。

🚀 快速開始

以下是使用該模型進行文本摘要的示例代碼：

import torch
from transformers import T5ForConditionalGeneration, T5Tokenizer

model_path = "twwch/mt5-base-summary"
model = T5ForConditionalGeneration.from_pretrained(model_path)
tokenizer = T5Tokenizer.from_pretrained(model_path)

device = torch.device('cuda:0') if torch.cuda.is_available() else torch.device('cpu')
model.to(device)
model.eval()

text = """
什麼是Nginx
Nginx是一個開源的高性能HTTP和反向代理服務器。它可以用於處理靜態資源、負載均衡、反向代理和緩存等任務。Nginx被廣泛用於構建高可用性、高性能的Web應用程序和網站。它具有低內存消耗、高併發能力和良好的穩定性，因此在互聯網領域非常受歡迎。
為什麼使用Nginx

高性能：Nginx採用事件驅動的異步架構，能夠處理大量併發連接而不會消耗過多的系統資源。它的處理能力比傳統的Web服務器更高，在高併發負載下表現出色。
高可靠性：Nginx具有強大的容錯能力和穩定性，能夠在面對高流量和DDoS攻擊等異常情況下保持可靠運行。它能通過健康檢查和自動故障轉移來保證服務的可用性。
負載均衡：Nginx可以作為反向代理服務器，實現負載均衡，將請求均勻分發給多個後端服務器。這樣可以提高系統的整體性能和可用性。
靜態文件服務：Nginx對靜態資源（如HTML、CSS、JavaScript、圖片等）的處理非常高效。它可以直接緩存靜態文件，減輕後端服務器的負載。
擴展性：Nginx支持豐富的模塊化擴展，可以通過添加第三方模塊來提供額外的功能，如gzip壓縮、SSL/TLS加密、緩存控制等。

如何處理請求
Nginx處理請求的基本流程如下：


接收請求：Nginx作為服務器軟件監聽指定的端口，接收客戶端發來的請求。


解析請求：Nginx解析請求的內容，包括請求方法（GET、POST等）、URL、頭部信息等。


配置匹配：Nginx根據配置文件中的規則和匹配條件，決定如何處理該請求。配置文件定義了虛擬主機、反向代理、負載均衡、緩存等特定的處理方式。


處理請求：Nginx根據配置的處理方式，可能會進行以下操作：

靜態文件服務：如果請求的是靜態資源文件，如HTML、CSS、JavaScript、圖片等，Nginx可以直接返回文件內容，不必經過後端應用程序。
反向代理：如果配置了反向代理，Nginx將請求轉發給後端的應用服務器，然後將其響應返回給客戶端。這樣可以提供負載均衡、高可用性和緩存等功能。
緩存：如果啟用了緩存，Nginx可以緩存一些靜態或動態內容的響應，在後續相同的請求中直接返回緩存的響應，減少後端負載並提高響應速度。
URL重寫：Nginx可以根據配置的規則對URL進行重寫，將請求從一個URL重定向到另一個URL或進行轉換。
SSL/TLS加密：如果啟用了SSL/TLS，Nginx可以負責加密和解密HTTPS請求和響應。
訪問控制：Nginx可以根據配置的規則對請求進行訪問控制，例如限制IP訪問、進行身份認證等。

響應結果：Nginx根據處理結果生成響應報文，包括狀態碼、頭部信息和響應內容。然後將響應發送給客戶端。
"""


def _split_text(text, length):
    chunks = []
    start = 0
    while start < len(text):
        if len(text) - start > length:
            pos_forward = start + length
            pos_backward = start + length
            pos = start + length
            while (pos_forward < len(text)) and (pos_backward >= 0) and (pos_forward < 20 + pos) and (
                    pos_backward + 20 > pos) and text[pos_forward] not in {'.', '。', '，', ','} and text[
                pos_backward] not in {'.', '。', '，', ','}:
                pos_forward += 1
                pos_backward -= 1
            if pos_forward - pos >= 20 and pos_backward <= pos - 20:
                pos = start + length
            elif text[pos_backward] in {'.', '。', '，', ','}:
                pos = pos_backward
            else:
                pos = pos_forward
            chunks.append(text[start:pos + 1])
            start = pos + 1
        else:
            chunks.append(text[start:])
            break
    # Combine last chunk with previous one if it's too short
    if len(chunks) > 1 and len(chunks[-1]) < 100:
        chunks[-2] += chunks[-1]
        chunks.pop()
    return chunks


def summary(text):
    chunks = _split_text(text, 300)
    chunks = [
        "summarize: " + chunk
        for chunk in chunks
    ]
    input_ids = tokenizer(chunks, return_tensors="pt",
                          max_length=512,
                          padding=True,
                          truncation=True).input_ids.to(device)
    outputs = model.generate(input_ids, max_length=250, num_beams=4, no_repeat_ngram_size=2)
    tokens = outputs.tolist()
    output_text = [
        tokenizer.decode(tokens[i], skip_special_tokens=True)
        for i in range(len(tokens))
    ]
    for i in range(len(output_text)):
        print(output_text[i])


summary(text)