W

Whisper Base

由openai開發
Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型,經過68萬小時標註數據訓練,具有強大的泛化能力。
下載量 491.35k
發布時間 : 9/26/2022

模型概述

Whisper是基於Transformer的編碼器-解碼器模型,支持多種語言的語音識別和翻譯任務,無需微調即可適應不同數據集和領域。

模型特點

大規模預訓練
使用68萬小時標註語音數據訓練,具有強大的泛化能力
多語言支持
支持99種語言的語音識別和翻譯任務
零樣本學習
無需微調即可適應不同數據集和領域
多功能任務
同時支持語音識別和語音翻譯兩種任務模式

模型能力

英語語音識別
多語言語音識別
跨語言語音翻譯
音頻轉錄
語音轉文本

使用案例

語音轉錄
會議記錄
將會議錄音自動轉錄為文字記錄
在LibriSpeech清晰測試集上WER為5.01
播客轉錄
將播客內容轉換為可搜索的文本
語音翻譯
即時翻譯
將一種語言的語音即時翻譯為另一種語言的文本
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase