Qwen2.5-7B-Instructオープンソース大規模言語モデル - 無料デプロイでテキスト生成と推論タスクをサポート

ホーム

Chinese Text Correction 7b

shibing624によって開発

Qwen2.5-7B-Instruct は Qwen2.5 アーキテクチャに基づく 7B パラメータ規模の中国語命令ファインチューニング大規模言語モデルで、テキスト生成と推論タスクに適しています。

大規模言語モデル

Transformers

中国語オープンソースライセンス:Apache-2.0 #中文テキスト校正 #命令ファインチューニング #高精度意味理解

ダウンロード数 522

リリース時間 : 10/12/2024

モデル概要

このモデルは主に中国語テキスト生成と推論タスクに使用され、テキスト校正などのアプリケーションシーンをサポートします。

モデル特徴

中国語命令ファインチューニング

中国語命令に対して最適化されており、中国語タスクをより良く理解し実行できます。

テキスト校正能力

中国語テキスト校正タスクをサポートし、テキスト内の誤りを識別して修正できます。

大規模言語モデル

7B パラメータ規模の大規模言語モデルに基づき、強力なテキスト生成と理解能力を備えています。

モデル能力

テキスト生成

テキスト校正

命令理解

使用事例

テキスト校正

中国語テキスト校正

中国語テキスト内の文法、スペル、語彙の誤りを識別して修正します。

テキストの正確性と可読性を効果的に向上させることができます。

テキスト生成

中国語テキスト生成

与えられたプロンプトに基づいて、一貫性があり流暢な中国語テキストを生成します。

生成されたテキストは文脈論理に合致し、高い可読性を持ちます。

🚀 中文テキスト修正モデル

このモデルは、中国語のテキストにおけるスペルミスや文法エラーを修正するためのものです。shibing624/chinese-text-correction-7b を使用することで、正確なテキスト修正が可能です。

🚀 クイックスタート

モデルの評価結果

shibing624/chinese-text-correction-7b のテストデータ評価結果は以下の通りです。

CSC テストの全体的なパフォーマンス：

入力テキスト	予測テキスト
文本纠错：少先队员因该为老人让坐。	少先队员应该为老人让座。

利用可能なモデル

名前	ベースモデル	ダウンロード
chinese-text-correction-1.5b	Qwen/Qwen2.5-1.5B-Instruct	🤗 Hugging Face
chinese-text-correction-1.5b-lora	Qwen/Qwen2.5-1.5B-Instruct	🤗 Hugging Face
chinese-text-correction-7b	Qwen/Qwen2.5-7B-Instruct	🤗 Hugging Face
chinese-text-correction-7b-lora	Qwen/Qwen2.5-7B-Instruct	🤗 Hugging Face

評価結果の詳細

評価指標：F1
CSC(Chinese Spelling Correction)：スペル修正モデルで、音似、形似、文法などの長さが一致するエラー修正が可能です。
CTC(CHinese Text Correction)：テキスト修正モデルで、スペル、文法などの長さが一致するエラー修正に加え、多字、少字などの長さが一致しないエラー修正もサポートします。
GPU：Tesla V100、メモリ 32 GB

モデル名	モデルリンク	ベースモデル	平均	SIGHAN-2015	EC-LAW	MCSC	GPU/CPU	QPS
Kenlm-CSC	shibing624/chinese-kenlm-klm	kenlm	0.3409	0.3147	0.3763	0.3317	CPU	9
Mengzi-T5-CSC	shibing624/mengzi-t5-base-chinese-correction	mengzi-t5-base	0.3984	0.7758	0.3156	0.1039	GPU	214
ERNIE-CSC	PaddleNLP/ernie-csc	PaddlePaddle/ernie-1.0-base-zh	0.4353	0.8383	0.3357	0.1318	GPU	114
MacBERT-CSC	shibing624/macbert4csc-base-chinese	hfl/chinese-macbert-base	0.3993	0.8314	0.1610	0.2055	GPU	224
ChatGLM3-6B-CSC	shibing624/chatglm3-6b-csc-chinese-lora	THUDM/chatglm3-6b	0.4538	0.6572	0.4369	0.2672	GPU	3
Qwen2.5-1.5B-CTC	shibing624/chinese-text-correction-1.5b	Qwen/Qwen2.5-1.5B-Instruct	0.6802	0.3032	0.7846	0.9529	GPU	6
Qwen2.5-7B-CTC	shibing624/chinese-text-correction-7b	Qwen/Qwen2.5-7B-Instruct	0.8225	0.4917	0.9798	0.9959	GPU	3

💻 使用例

pycorrectorを使用する場合

このプロジェクトは pycorrector プロジェクトでオープンソース化されています：pycorrector。大規模モデルの微調整後にテキスト修正に使用できます。以下のコマンドで呼び出すことができます。

パッケージのインストール：

pip install -U pycorrector

from pycorrector.gpt.gpt_corrector import GptCorrector

if __name__ == '__main__':
    error_sentences = [
        '真麻烦你了。希望你们好好的跳无',
        '少先队员因该为老人让坐',
        '机七学习是人工智能领遇最能体现智能的一个分知',
        '一只小鱼船浮在平净的河面上',
        '我的家乡是有明的渔米之乡',
    ]
    m = GptCorrector("shibing624/chinese-text-correction-7b")

    batch_res = m.correct_batch(error_sentences)
    for i in batch_res:
        print(i)
        print()

HuggingFace Transformersを使用する場合

pycorrector を使用せずに、以下のようにモデルを使用できます。

まず、入力をトランスフォーマーモデルに渡し、生成された文を取得します。

パッケージのインストール：

pip install transformers

# pip install transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "shibing624/chinese-text-correction-7b"

device = "cuda" # for GPU usage or "cpu" for CPU usage
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)

input_content = "文本纠错：\n少先队员因该为老人让坐。"

messages = [{"role": "user", "content": input_content}]
input_text=tokenizer.apply_chat_template(messages, tokenize=False)

print(input_text)

inputs = tokenizer.encode(input_text, return_tensors="pt").to(device)
outputs = model.generate(inputs, max_new_tokens=1024, temperature=0, do_sample=False, repetition_penalty=1.08)

print(tokenizer.decode(outputs[0]))

出力：

少先队员应该为老人让座。

モデルファイルの構成

shibing624/chinese-text-correction-7b
|-- added_tokens.json
|-- config.json
|-- generation_config.json
|-- merges.txt
|-- model.safetensors
|-- model.safetensors.index.json
|-- README.md
|-- special_tokens_map.json
|-- tokenizer_config.json
|-- tokenizer.json
`-- vocab.json

訓練パラメータ

num_epochs: 8
batch_size: 2
steps: 36000
eval_loss: 0.12
ベースモデル: Qwen/Qwen2.5-7B-Instruct
訓練データ: shibing624/chinese_text_correction
訓練時間: 10日
eval_loss:
train_loss:

訓練データセット

中国語修正データセット

データ：shibing624/chinese_text_correction

Qwenの修正モデルを訓練する場合は、https://github.com/shibing624/pycorrector または https://github.com/shibing624/MedicalGPT を参照してください。

📄 ライセンス

このモデルは apache-2.0 ライセンスの下で提供されています。

📚 引用

@software{pycorrector,
  author = {Xu Ming},
  title = {pycorrector: Implementation of language model finetune},
  year = {2024},
  url = {https://github.com/shibing624/pycorrector},
}