W

Whisper Large V3 Vaani Hindi

由ARTPARK-IISc開發
基於OpenAI的Whisper-Large-V3模型微調的印地語語音識別模型,訓練數據包含約718小時的印地語轉錄語音
下載量 15.55k
發布時間 : 3/14/2025

模型概述

這是一個專門針對印地語優化的自動語音識別(ASR)模型,基於Whisper-large-v3架構微調,適用於印地語語音轉錄任務。

模型特點

印地語優化
專門針對印地語語音進行微調,提供更準確的轉錄結果
多數據集訓練
融合了多個印地語語音數據集,增強模型泛化能力
長音頻處理
支持30秒音頻分塊處理,適合長語音轉錄

模型能力

印地語語音識別
長音頻轉錄
多場景語音處理

使用案例

語音轉錄
會議記錄
將印地語會議錄音轉為文字記錄
在Gramvaani數據集上WER為27.50
媒體字幕生成
為印地語視頻內容生成字幕
在IndicTTS數據集上WER為4.38
語音分析
語音助手
構建印地語語音交互系統
在Commonvoice數據集上WER為16.86
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase