W

Whisper Medium.en

由openai開發
Whisper是OpenAI開發的自動語音識別(ASR)模型,經過68萬小時標註語音數據訓練,具有強大的泛化能力。
下載量 36.92k
發布時間 : 9/26/2022

模型概述

Whisper是一個基於Transformer的編碼器-解碼器模型,專門用於英語語音識別任務。該模型在無需微調的情況下能適應多種數據集和領域。

模型特點

大規模訓練數據
使用68萬小時的標註語音數據進行訓練,其中65%為英語數據
強大的泛化能力
無需微調即可適應多種數據集和領域
高精度轉錄
在LibriSpeech測試集上WER低至4.12%(clean)和7.43%(other)
長音頻處理
支持通過分塊算法處理任意長度的音頻輸入

模型能力

英語語音識別
音頻轉錄
長音頻處理

使用案例

語音轉錄
會議記錄
將會議錄音自動轉錄為文字記錄
高準確率的轉錄文本
播客轉錄
將播客內容轉換為可搜索的文本格式
輔助技術
聽力輔助
為聽力障礙者提供即時字幕
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase