P

Punct Cap Seg 47 Language

由1-800-BAD-CODE開發
支持47種語言的標點恢復、大小寫校正和句子邊界檢測的多語言文本處理模型
下載量 4,728
發布時間 : 2/22/2023

模型概述

該模型能夠處理47種語言的小寫無標點文本,自動添加標點符號、校正大小寫(首字母大寫)並進行句子分段。所有語言使用統一算法處理,無需指定語言標籤。

模型特點

多語言統一處理
採用相同算法處理47種語言,無需語言標籤或特定語言分支
三合一功能
同時完成標點恢復、大小寫校正和句子邊界檢測三項任務
特殊字符支持
支持處理中文全角標點、阿姆哈拉語等特殊字符集

模型能力

文本標點恢復
首字母大寫校正
句子邊界檢測
多語言文本處理

使用案例

語音轉文字後處理
ASR輸出格式化
將語音識別系統輸出的無標點小寫文本轉換為規範格式
提升文本可讀性,符合出版標準
文本規範化
社交媒體文本處理
處理非正式網絡文本為規範格式
便於後續NLP任務處理
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase