W

Whisper Large V2

由openai開發
Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型,通過68萬小時標註數據訓練,具有強大的泛化能力
下載量 176.55k
發布時間 : 12/5/2022

模型概述

基於Transformer的編碼器-解碼器模型,支持多語言語音識別和翻譯任務,無需微調即可適應多種數據集

模型特點

大規模弱監督訓練
使用68萬小時標註數據訓練,涵蓋多種語言和領域
零樣本學習能力
無需微調即可適應新數據集和領域
多任務支持
同時支持語音識別和語音翻譯任務
長音頻處理
通過分塊處理支持任意長度音頻轉錄

模型能力

英語語音識別
多語言語音識別
語音翻譯為英語
長音頻轉錄
帶時間戳的轉錄

使用案例

語音轉錄
會議記錄
將會議錄音自動轉為文字記錄
支持98種語言的轉錄
播客字幕生成
為播客內容自動生成字幕
英語轉錄WER 3.0%(LibriSpeech測試集)
語音翻譯
即時翻譯
將外語語音即時翻譯為英語文本
支持法語等多語言到英語的翻譯
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase