W

Whisper Large V3 Turbo

由Daemontatox開發
Whisper large-v3-turbo 是 OpenAI 提出的自動語音識別和語音翻譯模型,基於大規模弱監督訓練,支持多種語言。
下載量 26
發布時間 : 2/26/2025

模型概述

Whisper large-v3-turbo 是經過修剪的 Whisper large-v3 微調版本,解碼層從32層減少到4層,速度大幅提升但質量略有下降。

模型特點

多語言支持
支持超過100種語言的語音識別和翻譯任務。
高效推理
通過減少解碼層數,顯著提升推理速度,適合即時應用。
零樣本泛化能力
在未見過的語言和領域上表現出強大的泛化能力。
長音頻處理
支持分塊處理長音頻文件,適合轉錄會議、講座等長時間錄音。

模型能力

語音識別
語音翻譯
多語言轉錄
時間戳預測

使用案例

語音轉錄
會議記錄
自動轉錄會議錄音,生成文字記錄。
支持多種語言,準確率接近人類水平。
播客轉錄
將播客內容轉錄為文字,便於搜索和存檔。
可處理不同口音和背景噪聲。
語音翻譯
即時翻譯
將非英語語音即時翻譯為英語文本。
支持多種語言到英語的翻譯。
輔助工具
字幕生成
為視頻內容自動生成字幕。
可生成帶時間戳的字幕文件。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase