faster-whisper-tiny开源语音识别模型 - 免费部署实现高效语音识别

首页

Faster Whisper Tiny

由 Systran 开发

基于OpenAI Whisper微型模型的CTranslate2转换版本，用于高效语音识别

语音识别支持多种语言开源协议:MIT #多语言语音识别 #轻量级模型 #实时转写

下载量 875.91k

发布时间 : 11/23/2023

模型简介

这是一个自动语音识别(ASR)模型，支持多语言语音转文字任务，通过CTranslate2优化实现高效推理

模型特点

多语言支持

支持96种语言的语音识别

高效推理

通过CTranslate2优化实现更快的推理速度

FP16量化

模型权重以FP16格式保存，平衡精度与效率

模型能力

语音转文字

多语言识别

实时转录

使用案例

语音转录

会议记录

自动转录会议录音

生成可搜索的会议文字记录

字幕生成

为视频内容自动生成字幕

支持多语言字幕制作

语音助手

语音指令识别

识别用户语音指令

支持多语言指令理解

🚀 CTranslate2的Whisper微小模型

本项目将openai/whisper-tiny模型转换为CTranslate2模型格式。该模型可用于CTranslate2或基于CTranslate2的项目，如faster-whisper，为语音识别任务提供高效支持。

🚀 快速开始

本模型可在CTranslate2或基于CTranslate2的项目（如faster-whisper）中使用。

✨ 主要特性

多语言支持：支持英语、中文、德语、西班牙语等众多语言。
音频处理：专注于音频处理和自动语音识别。
模型格式转换：将openai/whisper-tiny模型转换为CTranslate2模型格式。

💻 使用示例

基础用法

from faster_whisper import WhisperModel

model = WhisperModel("tiny")

segments, info = model.transcribe("audio.mp3")
for segment in segments:
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

🔧 技术细节

转换详情

原始模型使用以下命令进行转换：

ct2-transformers-converter --model openai/whisper-tiny --output_dir faster-whisper-tiny \
    --copy_files tokenizer.json --quantization float16

请注意，模型权重以FP16格式保存。在使用CTranslate2加载模型时，可以使用compute_type选项更改此类型。

📚 详细文档

有关原始模型的更多信息，请参阅其模型卡片。

📄 许可证

本项目采用MIT许可证。

支持语言列表

本模型支持以下语言：英语、中文、德语、西班牙语、俄语、韩语、法语、日语、葡萄牙语、土耳其语、波兰语、加泰罗尼亚语、荷兰语、阿拉伯语、瑞典语、意大利语、印尼语、印地语、芬兰语、越南语、希伯来语、乌克兰语、希腊语、马来语、捷克语、罗马尼亚语、丹麦语、匈牙利语、泰米尔语、挪威语、泰语、乌尔都语、克罗地亚语、保加利亚语、立陶宛语、拉丁语、毛利语、马拉雅拉姆语、威尔士语、斯洛伐克语、泰卢固语、波斯语、拉脱维亚语、孟加拉语、塞尔维亚语、阿塞拜疆语、斯洛文尼亚语、卡纳达语、爱沙尼亚语、马其顿语、布列塔尼语、巴斯克语、冰岛语、亚美尼亚语、尼泊尔语、蒙古语、波斯尼亚语、哈萨克语、阿尔巴尼亚语、斯瓦希里语、加利西亚语、马拉地语、旁遮普语、僧伽罗语、高棉语、绍纳语、约鲁巴语、索马里语、南非荷兰语、奥克西坦语、格鲁吉亚语、白俄罗斯语、塔吉克语、信德语、古吉拉特语、阿姆哈拉语、意第绪语、老挝语、乌兹别克语、法罗语、海地克里奥尔语、普什图语、土库曼语、书面挪威语、马耳他语、梵语、卢森堡语、缅甸语、藏语、他加禄语、马达加斯加语、阿萨姆语、鞑靼语、夏威夷语、林加拉语、豪萨语、巴什基尔语、爪哇语、巽他语。