HeackMT5-ZhSum100kオープンソース中国語テキスト要約モデル - 多様なテキストに対して簡潔で首尾一貫した要約を生成

ホーム

Heackmt5 ZhSum100k

heackによって開発

mT5をファインチューニングした中国語テキスト要約モデルで、多様な中国語データセットで訓練されており、様々なテキストに対して一貫性のある簡潔な要約を生成できます。

テキスト生成

Transformers

中国語#中国語要約生成 #経済ニュース要約 #mT5ファインチューニング

ダウンロード数 127

リリース時間 : 5/17/2023

モデル概要

このモデルはmT5アーキテクチャをファインチューニングした中国語テキスト要約生成モデルで、主に中国語テキストの自動要約生成に使用されます。

モデル特徴

高品質な中国語要約

中国語テキストに特化して最適化されており、一貫性のある簡潔な要約を生成可能

大規模トレーニングデータ

中国の経済ニュースソースから100万件のトレーニングサンプルを使用

柔軟な商用ライセンス

様々な企業規模に応じた商用ライセンスプランを提供

モデル能力

中国語テキスト要約生成

長文セグメント要約

経済ニュース要約

使用事例

ニュースメディア

経済ニュース要約

経済ニュースの簡潔な要約を自動生成

ROUGE-1: 56.46, ROUGE-2: 45.81

企業アプリケーション

ビジネスレポート要約

ビジネスレポートの要点を自動要約

🚀 HeackMT5-ZhSum100k: 中国語テキストの要約モデル

このモデル heack/HeackMT5-ZhSum100k は、中国語テキストの要約タスク用に微調整されたmT5モデルです。様々な中国語データセットで訓練されており、幅広いテキストに対して首尾一貫した簡潔な要約を生成することができます。

🚀 クイックスタート

このモデルは、中国語テキストの要約に特化しており、多様なデータセットで訓練されています。以下に、このモデルの詳細と使用方法を説明します。

✨ 主な機能

中国語テキストに対して首尾一貫した簡潔な要約を生成します。
多様な中国語データセットで訓練されているため、幅広いテキストに対応します。

📦 インストール

このモデルを使用するには、transformers ライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import MT5ForConditionalGeneration, T5Tokenizer

model = MT5ForConditionalGeneration.from_pretrained("heack/HeackMT5-ZhSum100k")
tokenizer = T5Tokenizer.from_pretrained("heack/HeackMT5-ZhSum100k")

chunk = """
财联社5月22日讯，据平安包头微信公众号消息，近日，包头警方发布一起利用人工智能（AI）实施电信诈骗的典型案例，福州市某科技公司法人代表郭先生10分钟内被骗430万元。
4月20日中午，郭先生的好友突然通过微信视频联系他，自己的朋友在外地竞标，需要430万保证金，且需要公对公账户过账，想要借郭先生公司的账户走账。
基于对好友的信任，加上已经视频聊天核实了身份，郭先生没有核实钱款是否到账，就分两笔把430万转到了好友朋友的银行卡上。郭先生拨打好友电话，才知道被骗。骗子通过智能AI换脸和拟声技术，佯装好友对他实施了诈骗。
值得注意的是，骗子并没有使用一个仿真的好友微信添加郭先生为好友，而是直接用好友微信发起视频聊天，这也是郭先生被骗的原因之一。骗子极有可能通过技术手段盗用了郭先生好友的微信。幸运的是，接到报警后，福州、包头两地警银迅速启动止付机制，成功止付拦截336.84万元，但仍有93.16万元被转移，目前正在全力追缴中。
"""
inputs = tokenizer.encode("summarize: " + chunk, return_tensors='pt', max_length=512, truncation=True)
summary_ids = model.generate(inputs, max_length=150, num_beams=4, length_penalty=1.5, no_repeat_ngram_size=2)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print(summary)

包头警方发布一起利用AI实施电信诈骗典型案例:法人代表10分钟内被骗430万元

高度な使用法

from transformers import MT5ForConditionalGeneration, T5Tokenizer

model_heack = MT5ForConditionalGeneration.from_pretrained("heack/HeackMT5-ZhSum100k")
tokenizer_heack = T5Tokenizer.from_pretrained("heack/HeackMT5-ZhSum100k")


def _split_text(text, length):
    chunks = []
    start = 0
    while start < len(text):
        if len(text) - start > length:
            pos_forward = start + length
            pos_backward = start + length
            pos = start + length
            while (pos_forward < len(text)) and (pos_backward >= 0) and (pos_forward < 20 + pos) and  (pos_backward + 20 > pos) and text[pos_forward] not in {'.', '。','，',','} and text[pos_backward] not in {'.', '。','，',','}:
                pos_forward += 1
                pos_backward -= 1
            if pos_forward - pos >= 20 and pos_backward <= pos - 20:
                pos = start + length
            elif text[pos_backward] in {'.', '。','，',','}:
                pos = pos_backward
            else:
                pos = pos_forward
            chunks.append(text[start:pos+1])
            start = pos + 1
        else:
            chunks.append(text[start:])
            break
    # Combine last chunk with previous one if it's too short
    if len(chunks) > 1 and len(chunks[-1]) < 100:
        chunks[-2] += chunks[-1]
        chunks.pop()
    return chunks

def get_summary_heack(text, each_summary_length=150):
    chunks = _split_text(text, 300)
    summaries = []
    for chunk in chunks:
        inputs = tokenizer_heack.encode("summarize: " + chunk, return_tensors='pt', max_length=512, truncation=True)
        summary_ids = model_heack.generate(inputs, max_length=each_summary_length, num_beams=4, length_penalty=1.5, no_repeat_ngram_size=2)
        summary = tokenizer_heack.decode(summary_ids[0], skip_special_tokens=True)
        summaries.append(summary)
    return " ".join(summaries)

📚 ドキュメント

モデル詳細

属性	详情
モデルタイプ	mT5
言語	中国語
訓練データ	主に中国の金融ニュースソース。BBCやCNNのソースは使用していません。訓練データは100万行含まれています。
微調整エポック数	10

評価結果

このモデルは以下の結果を達成しています。

ROUGE-1: 56.46
ROUGE-2: 45.81
ROUGE-L: 52.98
ROUGE-Lsum: 20.22

クレジット

このモデルは上海交通大学のKongYangによって訓練され、維持管理されています。質問がある場合は、微信ID: kongyang までお問い合わせください。

許可協定

オープンソースエコシステムの持続可能な発展を維持し、開発者がモデルの品質を継続的に改善できるようにするため、以下の条項を定めています。

定義

「派生作品」 とは、量子化、枝刈り、蒸留、アーキテクチャの変更などの技術手段を通じて、直接的または間接的にこのモデルに基づいて生成されるすべての変種を指し、以下のものが含まれますが、これらに限定されません。

GGUF/GGMLなどの量子化形式への変換結果
知識蒸留によって得られた軽量化モデル
このモデルのパラメータに基づくアーキテクチャの調整（層数の変更、注意力機構の変更など）

データと訓練コストの説明 高品質なAIモデルを訓練するには、膨大なリソースが必要です。

データのクリーニングとアノテーションのコストは、プロジェクト全体の投入の60％以上を占めており、すべて国内のコンプライアンスの取れたデータソースを使用しています。これにより、国際メディア（BBCなど）による中国語コンテキストの誤解を招く「幻覚翻訳」を避けています。
このプロジェクトでは、中立的で客観的なコーパスを使用し、技術の普及性を促進し、人類の理解と文明の相互理解を促進することを目指しています。

商用ライセンス条項 非商用目的の場合は無料です。

商用シーン（企業の製品/サービスを含む）で使用する場合は、以下の通りです。

企業タイプ	永久ライセンス料（人民元）
スタートアップ企業または個人（年間売上高100万未満）	1,000元
中型企業（年間売上高100万以上の非上場企業）	5,000元
上場企業	20,000元

スキャンして支払うと、あなたのHugging Faceアカウントに商用使用権が付与されます。
各企業は1つのメインアカウントのみを登録できます。

商用ライセンスの範囲には、形式の変換やアーキテクチャの変更の有無に関係なく、派生作品の商用使用が含まれます。

支払い方法：
支付宝/微信收款码

生データへのアクセス 生のデータセット（マルチモーダルコレクションを含む）を取得するには、QRコードを使って5000元を支払い、weixin: kongyang までメールで連絡してください。

引用

このモデルを研究で使用する場合は、以下のように引用してください。

@misc{kongyang2023heackmt5zhsum100k,
    title={HeackMT5-ZhSum100k: A Large-Scale Multilingual Abstractive Summarization for Chinese Texts},
    author={Kong Yang},
    year={2023}
}