W

Whisper Small

由unsloth開發
Whisper是一個預訓練的自動語音識別(ASR)和語音翻譯模型,通過68萬小時標註數據訓練,具有強大的泛化能力。
下載量 50
發布時間 : 5/14/2025

模型概述

基於Transformer的編碼器-解碼器模型,支持多語言語音識別和翻譯任務,無需微調即可適應多種數據集和領域。

模型特點

大規模弱監督訓練
使用68萬小時多樣化語音數據訓練,涵蓋多種語言和口音
零樣本遷移能力
無需微調即可在新語言和領域上表現良好
多任務統一架構
單一模型同時支持語音識別和翻譯任務
長音頻處理
通過分塊算法支持任意長度音頻轉錄

模型能力

語音轉文本
跨語言語音翻譯
多語言識別
帶時間戳的轉錄

使用案例

語音轉錄
會議記錄自動化
將會議錄音即時轉換為文字記錄
英語測試集WER 3.43%(LibriSpeech clean)
播客字幕生成
為非英語播客創建多語言字幕
語音翻譯
即時語音翻譯
將法語等語言即時翻譯為英語文本
示例顯示流暢的跨語言轉換能力
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase