M

Macbert4csc V2

由 Macropodus 开发
macbert4csc_v2是一款用于中文拼写纠错的模型,采用了特定架构和训练策略,在多个测评数据集上表现良好,适用于多种领域的文本纠错任务。
下载量 112
发布时间 : 1/16/2025

模型简介

该模型主要用于中文拼写纠错,支持多种领域文本的纠错任务,包括文言文和常见高频错误如'地得的'等。

模型特点

特定架构设计
在BertForMaskedLM后新增错误检测分支(分类任务),训练与推理时采用不同策略
高效训练策略
使用MFT(动态mask 0.2的非错误tokens)训练,det_loss权重为0.3
多领域适用性
使用多种领域数据训练,适合作为预训练模型,可用于专有领域数据的继续微调
文言文支持
训练数据包含文言文数据,支持文言文纠错
高频错误处理
对'地得的'等高频错误具有较高的识别率和纠错率

模型能力

中文文本拼写纠错
多领域文本纠错
文言文纠错
高频错误识别

使用案例

通用文本纠错
日常文本纠错
纠正日常文本中的拼写错误
示例:'少先队员因该为老人让坐' → '少先队员应该为老人让坐'
专业领域纠错
纠正专业领域文本中的拼写错误
示例:'机七学习是人工智能领遇最能体现智能的一个分知' → '机器学习是人工智能领域最能体现智能的一个分支'
特定错误类型处理
'地得的'纠错
专门处理中文中常见的'地得的'使用错误
示例:'希望你们好好的跳无' → '希望你们好好地跳舞'
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase