X

Xlm Roberta Capu

由dragonSwing開發
基於XLM-RoBERTa微調的越南語標點恢復模型,可預測純小寫文本的標點符號和大寫形式
下載量 1,722
發布時間 : 5/11/2022

模型概述

該模型用於恢復越南語文本中的標點符號和大寫形式,適用於語音識別輸出或其他丟失標點的文本處理場景。支持恢復常見標點符號(. , : ?)和複雜單詞的大寫形式。

模型特點

多標點恢復
支持恢復句號、逗號、冒號和問號四種常見標點符號
智能大寫轉換
能準確還原複雜專有名詞的大寫形式,如YouTube、MobiFone等
長文本處理
可處理任意長度的越南語文本,內置分塊處理機制
高準確率
在測試集上達到0.89的F1值,專有名詞識別準確率達0.93

模型能力

文本標點恢復
大小寫轉換
越南語文本處理
語音識別後處理

使用案例

語音識別後處理
ASR輸出文本規範化
將語音識別系統輸出的無標點小寫文本轉換為規範格式
提升ASR輸出文本的可讀性和專業性
文本預處理
社交媒體文本規範化
處理社交媒體中的非規範化越南語文本
使非正式文本符合正式寫作規範
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase