W

Whisper Medium

由openai開發
Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型,經過68萬小時標註數據訓練,具有強大的跨領域泛化能力。
下載量 394.31k
發布時間 : 9/26/2022

模型概述

基於Transformer的編碼器-解碼器架構,支持多語言語音識別和翻譯任務,無需微調即可在多種場景下表現良好。

模型特點

大規模預訓練
使用68萬小時的標註語音數據訓練,覆蓋多種語言和口音
零樣本泛化能力
無需微調即可在新領域和數據集上表現良好
多任務支持
同時支持語音識別(同語言轉錄)和語音翻譯(跨語言翻譯)
多語言支持
支持96種語言的轉錄和翻譯任務

模型能力

語音轉文本
跨語言語音翻譯
多語言語音識別
長音頻處理

使用案例

語音轉錄
會議記錄自動生成
將會議錄音即時轉換為文字記錄
在LibriSpeech測試集上WER(詞錯誤率)2.9(clean)/5.9(other)
播客字幕生成
為播客內容自動生成字幕文件
語音翻譯
即時語音翻譯
將法語語音即時翻譯為英語文本
支持96種語言間的翻譯轉換
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase