M

Macbert4csc V2

由Macropodus開發
macbert4csc_v2是一款用於中文拼寫糾錯的模型,採用了特定架構和訓練策略,在多個測評數據集上表現良好,適用於多種領域的文本糾錯任務。
下載量 112
發布時間 : 1/16/2025

模型概述

該模型主要用於中文拼寫糾錯,支持多種領域文本的糾錯任務,包括文言文和常見高頻錯誤如'地得的'等。

模型特點

特定架構設計
在BertForMaskedLM後新增錯誤檢測分支(分類任務),訓練與推理時採用不同策略
高效訓練策略
使用MFT(動態mask 0.2的非錯誤tokens)訓練,det_loss權重為0.3
多領域適用性
使用多種領域數據訓練,適合作為預訓練模型,可用於專有領域數據的繼續微調
文言文支持
訓練數據包含文言文數據,支持文言文糾錯
高頻錯誤處理
對'地得的'等高頻錯誤具有較高的識別率和糾錯率

模型能力

中文文本拼寫糾錯
多領域文本糾錯
文言文糾錯
高頻錯誤識別

使用案例

通用文本糾錯
日常文本糾錯
糾正日常文本中的拼寫錯誤
示例:'少先隊員因該為老人讓坐' → '少先隊員應該為老人讓坐'
專業領域糾錯
糾正專業領域文本中的拼寫錯誤
示例:'機七學習是人工智能領遇最能體現智能的一個分知' → '機器學習是人工智能領域最能體現智能的一個分支'
特定錯誤類型處理
'地得的'糾錯
專門處理中文中常見的'地得的'使用錯誤
示例:'希望你們好好的跳無' → '希望你們好好地跳舞'
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase