B

Bp500 Base100k Voxpopuli

由lgris開發
針對巴西葡萄牙語優化的語音識別模型,使用7個公開數據集共453小時語音訓練
下載量 23
發布時間 : 3/2/2022

模型概述

該模型是基於Wav2vec 2.0架構的巴西葡萄牙語自動語音識別(ASR)系統,通過多個公開數據集微調獲得,支持無語言模型和4-gram語言模型增強兩種模式。

模型特點

多數據集訓練
整合7個巴西葡萄牙語數據集(CETUC/Common Voice/MLS等)共453小時訓練數據
語言模型支持
可選4-gram語言模型增強,平均WER從0.155降至0.157
跨領域適應性
在朗讀語音(CETUC)和自然語音(TEDx)等不同場景表現穩定

模型能力

巴西葡萄牙語語音轉文本
支持16kHz採樣率音頻處理
批量語音識別

使用案例

語音轉錄
教育內容轉錄
將葡萄牙語教學音頻轉為文字稿
在朗讀語音數據集上WER低至0.052
會議記錄自動化
即時轉錄巴西葡萄牙語會議內容
在自然語音數據集上WER約0.317
語音助手
巴西葡萄牙語語音指令識別
為本地化智能設備提供語音交互支持
在短指令數據集上表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase