W

Whisper Large V3 Voice Quality

由tiantiaf開發
基於Whisper Large v3的語音質量分類模型,用於分析語音的音高、音質、音量、清晰度和節奏等特徵。
下載量 162
發布時間 : 5/22/2025

模型概述

本模型實現了《Vox-Profile: 用於表徵多樣化說話人與語音特徵的語音基礎模型基準》中描述的語音質量分類方法,能夠對語音的多維度特徵進行分類。

模型特點

多維度語音特徵分析
能夠同時分析語音的音高、音質、音量、清晰度和節奏等多個維度的特徵。
說話人級別評估
採用說話人級別的宏平均F1分數進行評估,確保評估結果的代表性。
高效音頻處理
支持最長15秒的音頻輸入,16kHz採樣率,單聲道處理。

模型能力

語音質量分類
音高分析
音質分析
音量分析
清晰度分析
節奏分析

使用案例

語音分析
語音特徵標註
為語音樣本自動標註音高、音質等特徵標籤。
提供詳細的語音特徵分類結果
說話人特徵分析
分析說話人的語音特徵模式。
生成說話人級別的語音特徵報告
語音研究
語音特徵研究
用於語音特徵與說話人特徵的相關性研究。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase