W

Whisper Large V3 Speech Flow

tiantiafによって開発
Whisper Large v3を基にした音声流暢性分類モデルで、音声の流暢性と非流暢タイプを検出可能
ダウンロード数 157
リリース時間 : 5/22/2025

モデル概要

このモデルは音声流暢性分類手法を実装しており、まず音声が流暢かどうかを検出し、非流暢な場合さらに5種類の非流暢タイプ(ブロック、延長、音の繰り返し、単語の繰り返し、挿入語)に分類します。

モデル特徴

流暢性検出
流暢な音声と非流暢な音声断片を正確に区別可能
非流暢タイプ分類
非流暢音声を5種類の具体的タイプにさらに分類可能
ウィンドウ処理
3秒ウィンドウサイズと1秒ステップで長音声を処理

モデル能力

音声流暢性検出
非流暢タイプ分類
長音声セグメント処理

使用事例

音声治療
吃音評価
言語療法士が患者の吃音重症度とタイプを評価するのを支援
非流暢音声の頻度とタイプ分布を定量分析可能
音声品質分析
音声流暢性スコアリング
音声品質評価システムに流暢性指標を提供
音声流暢性レポートを自動生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase