W

Whisper Small

由openai開發
Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型,經過68萬小時標註數據訓練,具有強大的泛化能力。
下載量 2.0M
發布時間 : 9/26/2022

模型概述

Whisper是基於Transformer的編碼器-解碼器模型,支持多語言語音識別和翻譯任務,無需微調即可適應多種數據集和領域。

模型特點

大規模弱監督訓練
使用68萬小時的標註語音數據進行訓練,具有強大的泛化能力
多語言支持
支持超過100種語言的語音識別和翻譯
零樣本適應能力
無需微調即可適應多種數據集和領域
任務靈活性
通過上下文標記可靈活切換語音識別和翻譯任務

模型能力

語音識別
語音翻譯
多語言處理
自動語音轉文本

使用案例

語音轉錄
會議記錄
將會議錄音自動轉換為文字記錄
在LibriSpeech測試集上WER為3.43(clean)和7.63(other)
播客轉錄
將播客內容轉換為可搜索的文本
語音翻譯
即時翻譯
將一種語言的語音即時翻譯為另一種語言的文本
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase