M

Macbert4csc Base Chinese

由shibing624開發
基於MacBERT的中文拼寫糾錯模型,在SIGHAN2015測試集上達到當前最優水平
下載量 9,623
發布時間 : 3/2/2022

模型概述

該模型專注於中文文本的拼寫錯誤檢測與糾正,採用改進的MacBERT架構,適用於各類中文文本校對場景

模型特點

最優性能
在SIGHAN2015測試集上達到字符級別F1值89.91,句子級別F1值77.89的當前最優水平
改進架構
基於softmaskedbert改進的MacBERT架構,通過MLM校正預訓練任務優化模型性能
全面訓練數據
使用SIGHAN+Wang271K中文糾錯數據集訓練,包含27萬條高質量糾錯樣本

模型能力

中文拼寫錯誤檢測
中文文本自動糾正
錯別字識別與修正

使用案例

文本校對
日常文本糾錯
自動糾正聊天、郵件等日常文本中的拼寫錯誤
示例:'今天新情很好' → '今天心情很好'
正式文檔校對
輔助檢查報告、論文等正式文檔的文字準確性
教育輔助
中文學習輔助
幫助中文學習者識別和糾正寫作中的錯誤
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase