W

Whisper Large

由openai開發
Whisper是一個用於自動語音識別(ASR)和語音翻譯的預訓練模型,在68萬小時標註數據上訓練,具有強大的泛化能力。
下載量 175.34k
發布時間 : 9/26/2022

模型概述

Whisper是基於Transformer的編碼器-解碼器模型,支持多語言語音識別和翻譯任務,無需微調即可適應多種數據集。

模型特點

大規模預訓練
在68萬小時的標註語音數據上訓練,具有強大的泛化能力
多語言支持
支持96種語言的語音識別和翻譯任務
零樣本學習
無需微調即可適應多種數據集和領域
多功能任務
同時支持語音識別(同語言轉錄)和語音翻譯(跨語言翻譯)

模型能力

英語語音識別
多語言語音識別
語音翻譯
音頻轉錄
自動字幕生成

使用案例

語音轉錄
會議記錄
將會議錄音自動轉錄為文字記錄
在LibriSpeech測試集上WER(詞錯誤率)為3.0(乾淨)和5.4(其他)
播客字幕
為播客內容生成自動字幕
語音翻譯
即時翻譯
將一種語言的語音即時翻譯為另一種語言的文字
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase