mengzi-t5-base-chinese-correction開源模型 - 高效支持中文文本自動拼寫糾錯

首頁

Mengzi T5 Base Chinese Correction

由shibing624開發

基於T5架構的中文拼寫糾錯模型，在SIGHAN2015測試集上表現出色，支持中文文本的自動糾錯。

大型語言模型

Transformers

中文開源協議:Apache-2.0 #中文拼寫糾錯 #高精度F1 #文本生成式糾錯

下載量 2,522

發布時間 : 6/17/2022

模型概述

該模型使用SIGHAN+Wang271K中文糾錯數據集進行訓練，專注於中文文本的拼寫錯誤檢測與糾正。

模型特點

高性能糾錯

在SIGHAN2015測試集上達到精確率0.8321，召回率0.6390，F1值0.7229

大訓練數據

使用SIGHAN+Wang271K中文糾錯數據集(27萬條)訓練

易於集成

已集成至pycorrector項目，支持簡單調用

模型能力

中文拼寫錯誤檢測

中文文本自動糾正

批量文本處理

使用案例

文本校對

日常文本糾錯

自動糾正中文文本中的拼寫錯誤

如將'新情'糾正為'心情'

正式文檔校對

幫助檢查正式文檔中的拼寫錯誤

提高文檔專業性

教育輔助

中文學習輔助

幫助中文學習者識別和糾正拼寫錯誤

提高學習效率

🚀 T5 中文拼寫糾錯模型

本模型用於中文拼寫糾錯，在 SIGHAN2015 測試數據上表現出色，通過微調中文糾錯數據集，展現出巨大的糾錯潛力。

🚀 快速開始

本項目開源在中文文本糾錯項目：pycorrector，可支持 t5 模型，通過如下命令調用：

pip install -U pycorrector

運行示例代碼：

from pycorrector.t5.t5_corrector import T5Corrector
nlp = T5Corrector("shibing624/mengzi-t5-base-chinese-correction").batch_t5_correct
i = "今天新情很好"
print(i, ' => ', nlp([i]))

輸出結果：

今天新情很好  =>  今天心情很好 [('新', '心', 2, 3)]

✨ 主要特性

評估效果佳：shibing624/mengzi-t5-base-chinese-correction 評估 SIGHAN2015 測試數據，句子級別精確率為 0.8321，召回率為 0.6390，F1 值為 0.7229。
接近 SOTA 水平：訓練使用 “SIGHAN+Wang271K 中文糾錯數據集”，在 SIGHAN2015 的測試集上達到接近 SOTA 水平。
模型潛力大：未改動模型結構，通過 finetune 中文糾錯數據集，糾錯效果良好。

📦 安裝指南

通過以下命令安裝所需依賴：

pip install -U pycorrector

💻 使用示例

基礎用法

from pycorrector.t5.t5_corrector import T5Corrector
nlp = T5Corrector("shibing624/mengzi-t5-base-chinese-correction").batch_t5_correct
i = "今天新情很好"
print(i, ' => ', nlp([i]))

高級用法

如果需要訓練 t5 - correction，請參考https://github.com/shibing624/pycorrector/tree/master/pycorrector/t5

📚 詳細文檔

模型文件組成

mengzi-t5-base-chinese-correction
|-- config.json
|-- pytorch_model.bin
|-- special_tokens_map.json
|-- spiece.model
|-- tokenizer_config.json
`-- tokenizer.json

訓練數據集

SIGHAN+Wang271K 中文糾錯數據集

數據集	語料	下載鏈接	壓縮包大小
`SIGHAN+Wang271K 中文糾錯數據集`	SIGHAN+Wang271K(27 萬條)	百度網盤（密碼 01b9）	106M
`原始 SIGHAN 數據集`	SIGHAN13 14 15	官方 csc.html	339K
`原始 Wang271K 數據集`	Wang271K	Automatic - Corpus - Generation dimmywang 提供	93M

SIGHAN+Wang271K 中文糾錯數據集的數據格式：

[
    {
        "id": "B2-4029-3",
        "original_text": "晚間會聽到嗓音，白天的時候大家都不會太在意，但是在睡覺的時候這嗓音成為大家的惡夢。",
        "wrong_ids": [
            5,
            31
        ],
        "correct_text": "晚間會聽到噪音，白天的時候大家都不會太在意，但是在睡覺的時候這噪音成為大家的惡夢。"
    }
]

📄 許可證

本項目採用 apache - 2.0 許可證。

📚 引用信息

@software{pycorrector,
  author = {Xu Ming},
  title = {pycorrector: Text Error Correction Tool},
  year = {2021},
  url = {https://github.com/shibing624/pycorrector},
}