🚀 CTranslate2的Whisper微小模型
本項目將openai/whisper-tiny模型轉換為CTranslate2模型格式。該模型可用於CTranslate2或基於CTranslate2的項目,如faster-whisper,為語音識別任務提供高效支持。
🚀 快速開始
本模型可在CTranslate2或基於CTranslate2的項目(如faster-whisper)中使用。
✨ 主要特性
- 多語言支持:支持英語、中文、德語、西班牙語等眾多語言。
- 音頻處理:專注於音頻處理和自動語音識別。
- 模型格式轉換:將openai/whisper-tiny模型轉換為CTranslate2模型格式。
💻 使用示例
基礎用法
from faster_whisper import WhisperModel
model = WhisperModel("tiny")
segments, info = model.transcribe("audio.mp3")
for segment in segments:
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
🔧 技術細節
轉換詳情
原始模型使用以下命令進行轉換:
ct2-transformers-converter --model openai/whisper-tiny --output_dir faster-whisper-tiny \
--copy_files tokenizer.json --quantization float16
請注意,模型權重以FP16格式保存。在使用CTranslate2加載模型時,可以使用compute_type
選項更改此類型。
📚 詳細文檔
有關原始模型的更多信息,請參閱其模型卡片。
📄 許可證
本項目採用MIT許可證。
支持語言列表
本模型支持以下語言:
英語、中文、德語、西班牙語、俄語、韓語、法語、日語、葡萄牙語、土耳其語、波蘭語、加泰羅尼亞語、荷蘭語、阿拉伯語、瑞典語、意大利語、印尼語、印地語、芬蘭語、越南語、希伯來語、烏克蘭語、希臘語、馬來語、捷克語、羅馬尼亞語、丹麥語、匈牙利語、泰米爾語、挪威語、泰語、烏爾都語、克羅地亞語、保加利亞語、立陶宛語、拉丁語、毛利語、馬拉雅拉姆語、威爾士語、斯洛伐克語、泰盧固語、波斯語、拉脫維亞語、孟加拉語、塞爾維亞語、阿塞拜疆語、斯洛文尼亞語、卡納達語、愛沙尼亞語、馬其頓語、布列塔尼語、巴斯克語、冰島語、亞美尼亞語、尼泊爾語、蒙古語、波斯尼亞語、哈薩克語、阿爾巴尼亞語、斯瓦希里語、加利西亞語、馬拉地語、旁遮普語、僧伽羅語、高棉語、紹納語、約魯巴語、索馬里語、南非荷蘭語、奧克西坦語、格魯吉亞語、白俄羅斯語、塔吉克語、信德語、古吉拉特語、阿姆哈拉語、意第緒語、老撾語、烏茲別克語、法羅語、海地克里奧爾語、普什圖語、土庫曼語、書面挪威語、馬耳他語、梵語、盧森堡語、緬甸語、藏語、他加祿語、馬達加斯加語、阿薩姆語、韃靼語、夏威夷語、林加拉語、豪薩語、巴什基爾語、爪哇語、巽他語 。
標籤信息
本項目標籤包括:音頻、自動語音識別。
庫信息
使用的庫為ctranslate2。