Macbert4csc Scalarmix Base Chinese

M

Macbert4csc Scalarmix Base Chinese

由x180開發

基於MacBERT微調的掩碼語言模型，用於中文錯別字修正

大型語言模型

開源協議:Apache-2.0 #中文文本糾錯 #掩碼語言模型 #錯字檢測二分類

下載量 15

發布時間 : 4/14/2022

模型概述

該模型是在MacBERT基礎上微調的掩碼語言模型，專門用於中文文本的錯別字檢測與修正。通過調整損失權重和引入ScalarMix層等技術改進，提升了錯字檢測能力。

模型特點

改進的損失權重分配

調整MLM與錯字檢測二分類任務的損失權重為0.9:0.1，優化模型學習效果

ScalarMix層融合

在錯字檢測任務中引入ScalarMix層融合各隱層表示，避免過深表徵影響學習效果

模型能力

中文文本糾錯

錯別字檢測

自動文本修正

使用案例

文本處理

中文文檔校對

自動檢測和修正中文文檔中的錯別字

在通用語料測試集上達到72%的準確率

輸入法糾錯

修正用戶輸入時的拼寫錯誤

在SIGHAN2015測試集上達到79.73%的準確率

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase