W

Wav2vecbert2 Filledpause

由 classla 开发
用于对音频中20毫秒的帧进行分类,判断是否存在填充停顿(如'eee'、'errm'等)的模型
下载量 4,290
发布时间 : 8/28/2024

模型简介

本模型基于facebook/w2v-bert-2.0基础模型训练,专门用于检测语音中的填充停顿现象。

模型特点

多语言支持
支持斯洛文尼亚语、克罗地亚语、塞尔维亚语、捷克语和波兰语五种语言的填充停顿检测
高精度检测
在ROG语料库上达到0.968的F1值,表现出色
智能后处理
通过剔除首尾短片段等后处理方式,显著提升在ParlaSpeech语料库上的表现

模型能力

音频帧分类
填充停顿检测
多语言语音分析

使用案例

语音处理
语音转写预处理
在语音转写前识别并标记填充停顿,提高转写准确性
减少转写结果中的非语义内容
语音质量分析
分析演讲或对话中的填充停顿频率,评估口语流畅度
提供量化指标用于演讲训练或语言学习
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase