mengzi-t5-base-chinese-correction开源模型 - 高效支持中文文本自动拼写纠错

Home

Mengzi T5 Base Chinese Correction

Developed by shibing624

基于T5架构的中文拼写纠错模型，在SIGHAN2015测试集上表现出色，支持中文文本的自动纠错。

大型语言模型

Transformers

ChineseOpen Source License:Apache-2.0 #中文拼写纠错 #高精度F1 #文本生成式纠错

Downloads 2,522

Release Time : 6/17/2022

Model Overview

该模型使用SIGHAN+Wang271K中文纠错数据集进行训练，专注于中文文本的拼写错误检测与纠正。

Model Features

高性能纠错

在SIGHAN2015测试集上达到精确率0.8321，召回率0.6390，F1值0.7229

大训练数据

使用SIGHAN+Wang271K中文纠错数据集(27万条)训练

易于集成

已集成至pycorrector项目，支持简单调用

Model Capabilities

中文拼写错误检测

中文文本自动纠正

批量文本处理

Use Cases

文本校对

日常文本纠错

自动纠正中文文本中的拼写错误

如将'新情'纠正为'心情'

正式文档校对

帮助检查正式文档中的拼写错误

提高文档专业性

教育辅助

中文学习辅助

帮助中文学习者识别和纠正拼写错误

提高学习效率

🚀 T5 中文拼写纠错模型

本模型用于中文拼写纠错，在 SIGHAN2015 测试数据上表现出色，通过微调中文纠错数据集，展现出巨大的纠错潜力。

🚀 快速开始

本项目开源在中文文本纠错项目：pycorrector，可支持 t5 模型，通过如下命令调用：

pip install -U pycorrector

运行示例代码：

from pycorrector.t5.t5_corrector import T5Corrector
nlp = T5Corrector("shibing624/mengzi-t5-base-chinese-correction").batch_t5_correct
i = "今天新情很好"
print(i, ' => ', nlp([i]))

输出结果：

今天新情很好  =>  今天心情很好 [('新', '心', 2, 3)]

✨ 主要特性

评估效果佳：shibing624/mengzi-t5-base-chinese-correction 评估 SIGHAN2015 测试数据，句子级别精确率为 0.8321，召回率为 0.6390，F1 值为 0.7229。
接近 SOTA 水平：训练使用 “SIGHAN+Wang271K 中文纠错数据集”，在 SIGHAN2015 的测试集上达到接近 SOTA 水平。
模型潜力大：未改动模型结构，通过 finetune 中文纠错数据集，纠错效果良好。

📦 安装指南

通过以下命令安装所需依赖：

pip install -U pycorrector

💻 使用示例

基础用法

from pycorrector.t5.t5_corrector import T5Corrector
nlp = T5Corrector("shibing624/mengzi-t5-base-chinese-correction").batch_t5_correct
i = "今天新情很好"
print(i, ' => ', nlp([i]))

高级用法

如果需要训练 t5 - correction，请参考https://github.com/shibing624/pycorrector/tree/master/pycorrector/t5

📚 详细文档

模型文件组成

mengzi-t5-base-chinese-correction
|-- config.json
|-- pytorch_model.bin
|-- special_tokens_map.json
|-- spiece.model
|-- tokenizer_config.json
`-- tokenizer.json

训练数据集

SIGHAN+Wang271K 中文纠错数据集

数据集	语料	下载链接	压缩包大小
`SIGHAN+Wang271K 中文纠错数据集`	SIGHAN+Wang271K(27 万条)	百度网盘（密码 01b9）	106M
`原始 SIGHAN 数据集`	SIGHAN13 14 15	官方 csc.html	339K
`原始 Wang271K 数据集`	Wang271K	Automatic - Corpus - Generation dimmywang 提供	93M

SIGHAN+Wang271K 中文纠错数据集的数据格式：

[
    {
        "id": "B2-4029-3",
        "original_text": "晚间会听到嗓音，白天的时候大家都不会太在意，但是在睡觉的时候这嗓音成为大家的恶梦。",
        "wrong_ids": [
            5,
            31
        ],
        "correct_text": "晚间会听到噪音，白天的时候大家都不会太在意，但是在睡觉的时候这噪音成为大家的恶梦。"
    }
]

📄 许可证

本项目采用 apache - 2.0 许可证。

📚 引用信息

@software{pycorrector,
  author = {Xu Ming},
  title = {pycorrector: Text Error Correction Tool},
  year = {2021},
  url = {https://github.com/shibing624/pycorrector},
}