W

Wav2vecbert2 Filledpause

由classla開發
用於對音頻中20毫秒的幀進行分類,判斷是否存在填充停頓(如'eee'、'errm'等)的模型
下載量 4,290
發布時間 : 8/28/2024

模型概述

本模型基於facebook/w2v-bert-2.0基礎模型訓練,專門用於檢測語音中的填充停頓現象。

模型特點

多語言支持
支持斯洛文尼亞語、克羅地亞語、塞爾維亞語、捷克語和波蘭語五種語言的填充停頓檢測
高精度檢測
在ROG語料庫上達到0.968的F1值,表現出色
智能後處理
通過剔除首尾短片段等後處理方式,顯著提升在ParlaSpeech語料庫上的表現

模型能力

音頻幀分類
填充停頓檢測
多語言語音分析

使用案例

語音處理
語音轉寫預處理
在語音轉寫前識別並標記填充停頓,提高轉寫準確性
減少轉寫結果中的非語義內容
語音質量分析
分析演講或對話中的填充停頓頻率,評估口語流暢度
提供量化指標用於演講訓練或語言學習
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase