faster-whisper-large-v2開源模型 - 免費支持多語言語音轉文字任務

首頁

Faster Whisper Large V2

由Systran開發

Whisper large-v2是OpenAI開發的大規模自動語音識別(ASR)模型，支持多種語言的語音轉文字任務。

語音識別支持多種語言開源協議:MIT #多語言語音轉錄 #即時語音識別 #高精度轉寫

下載量 948.29k

發布時間 : 11/23/2023

模型概述

該模型是基於Transformer架構的自動語音識別系統，能夠將語音轉換為文本，支持多種語言和口音。

模型特點

多語言支持

支持超過100種語言的語音識別

高效推理

通過CTranslate2優化，提供更快的推理速度

高精度

在多種語言和口音上表現出色的識別準確率

FP16量化

模型權重以FP16格式保存，平衡精度和性能

模型能力

語音轉文字

多語言識別

即時轉錄

音頻文件處理

使用案例

媒體轉錄

播客轉錄

將播客音頻內容自動轉換為文字稿

提高內容可訪問性和SEO優化

視頻字幕生成

為視頻內容自動生成字幕

提高視頻可訪問性和多語言支持

會議記錄

會議記錄自動化

即時轉錄會議內容

提高會議效率和記錄準確性

客戶服務

語音客服記錄

自動記錄和分析客服通話

提高服務質量分析和培訓效率

🚀 適用於CTranslate2的Whisper large - v2模型

本項目將openai/whisper-large-v2模型轉換為CTranslate2模型格式。該模型可在CTranslate2或基於CTranslate2的項目（如faster-whisper）中使用。

🚀 快速開始

代碼示例

from faster_whisper import WhisperModel

model = WhisperModel("large-v2")

segments, info = model.transcribe("audio.mp3")
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

📚 詳細文檔

轉換詳情

原始模型使用以下命令進行轉換：

ct2-transformers-converter --model openai/whisper-large-v2 --output_dir faster-whisper-large-v2 \
    --copy_files tokenizer.json --quantization float16

請注意，模型權重以FP16格式保存。在使用CTranslate2加載模型時，可以通過compute_type選項更改此類型。

📄 許可證

本項目採用MIT許可證。

支持語言

英語、中文、德語、西班牙語、俄語、韓語、法語、日語、葡萄牙語、土耳其語、波蘭語、加泰羅尼亞語、荷蘭語、阿拉伯語、瑞典語、意大利語、印尼語、印地語、芬蘭語、越南語、希伯來語、烏克蘭語、希臘語、馬來語、捷克語、羅馬尼亞語、丹麥語、匈牙利語、泰米爾語、挪威語、泰語、烏爾都語、克羅地亞語、保加利亞語、立陶宛語、拉丁語、毛利語、馬拉雅拉姆語、威爾士語、斯洛伐克語、泰盧固語、波斯語、拉脫維亞語、孟加拉語、塞爾維亞語、阿塞拜疆語、斯洛文尼亞語、卡納達語、愛沙尼亞語、馬其頓語、布列塔尼語、巴斯克語、冰島語、亞美尼亞語、尼泊爾語、蒙古語、波斯尼亞語、哈薩克語、阿爾巴尼亞語、斯瓦希里語、加利西亞語、馬拉地語、旁遮普語、僧伽羅語、高棉語、紹納語、約魯巴語、索馬里語、南非荷蘭語、奧克西坦語、格魯吉亞語、白俄羅斯語、塔吉克語、信德語、古吉拉特語、阿姆哈拉語、意第緒語、老撾語、烏茲別克語、法羅語、海地克里奧爾語、普什圖語、土庫曼語、新挪威語、馬耳他語、梵語、盧森堡語、緬甸語、藏語、他加祿語、馬達加斯加語、阿薩姆語、韃靼語、夏威夷語、林加拉語、豪薩語、巴什基爾語、爪哇語、巽他語