W

Wav2vecbert2 Filledpause

classlaによって開発
オーディオ中の20ミリ秒フレームを分類し、フィラー('eee'、'errm'など)の存在を判定するモデル
ダウンロード数 4,290
リリース時間 : 8/28/2024

モデル概要

本モデルはfacebook/w2v-bert-2.0ベースモデルをファインチューニングし、音声中のフィラー現象を検出するために特別に設計されました。

モデル特徴

多言語サポート
スロベニア語、クロアチア語、セルビア語、チェコ語、ポーランド語の5言語におけるフィラー検出をサポート
高精度検出
ROGコーパスで0.968のF1値を達成し、優れた性能を発揮
インテリジェント後処理
開始/終了の短いセグメント除去などの後処理により、ParlaSpeechコーパスでの性能を大幅に向上

モデル能力

音声フレーム分類
フィラー検出
多言語音声分析

使用事例

音声処理
音声文字起こし前処理
文字起こし前にフィラーを識別・マークすることで、転写精度を向上
転写結果中の非意味的内容を削減
音声品質分析
スピーチや会話中のフィラー頻度を分析し、流暢さを評価
スピーチトレーニングや言語学習のための定量指標を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase