W

Whisper Large V3

由openai開發
Whisper是由OpenAI提出的先進自動語音識別(ASR)和語音翻譯模型,在超過500萬小時的標註數據上訓練,具有強大的跨數據集和跨領域泛化能力。
下載量 4.6M
發布時間 : 11/7/2023

模型概述

Whisper是一個基於Transformer的編碼器-解碼器模型,支持多種語言的語音識別和翻譯任務。large-v3版本相比前代在多種語言上錯誤率降低10%-20%。

模型特點

大規模訓練數據
在超過500萬小時的標註音頻數據上訓練,包括100萬小時弱標註數據和400萬小時偽標註數據
多語言支持
支持98種語言的語音識別,包括多種低資源語言
零樣本泛化能力
在未見過的數據集和領域上表現出強大的零樣本泛化性能
改進的準確率
相比large-v2版本,在多種語言上錯誤率降低10%-20%
時間戳支持
可提供句子級和單詞級的時間戳信息

模型能力

語音轉文本
多語言語音識別
語音翻譯(到英語)
長音頻處理
帶時間戳的轉錄

使用案例

語音轉錄
會議記錄
將會議錄音自動轉錄為文字記錄
準確率高,支持多種語言和口音
播客轉錄
將播客內容轉錄為文字便於搜索和存檔
支持長時間音頻處理
語音翻譯
即時翻譯
將非英語語音即時翻譯為英語文本
翻譯質量高,延遲低
字幕生成
視頻字幕
為視頻內容自動生成字幕
支持時間戳對齊
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase