🚀 EraX-WoW-Turbo V1.1-CT2:适用于越南语及更多语言的Whisper Large-v3 Turbo,搭配CTranslate2,性能超强且本地化!🚀
EraX-WoW-Turbo V1.1-CT2基于令人印象深刻的Whisper Large-v3 Turbo构建,它能提供比喝了咖啡的猎豹还快的语音识别速度,其准确性足以让最挑剔的技术达人朋友也为之赞叹。它就像是经过严格训练并喝了大量浓缩咖啡后的Whisper Large-v3。(承诺兑现!遵循MIT许可协议 - 绝对完全免费。)
🚀 快速开始
EraX-WoW-Turbo V1.1-CT2是一款强大的语音识别模型,它在Whisper Large-v3 Turbo的基础上进行了优化,结合CTranslate2库,能实现超快速且准确的语音识别。以下是使用该模型的步骤:
安装依赖
* 安装以下包
pip install pydub
pip install silero-vad
pip install faster-whisper
pip install ctranslate2
代码示例
from faster_whisper import WhisperModel
model_path = "erax-ai/EraX-WoW-Turbo-V1.1-CT2"
from pydub import AudioSegment
def convert16k (audio_path ):
audio = AudioSegment.from_file(audio_path, format ="wav" )
audio = audio.split_to_mono()[0 ]
audio = audio.set_frame_rate(16000 )
audio.export("test.wav" , format ="wav" )
return True
fast_model = WhisperModel(model_path, device="cuda" , compute_type="bfloat16" , )
segments, info = fast_model.transcribe(test["path" ], beam_size=5 ,
language="vi" ,
temperature=0.0 ,
vad_filter=True ,
)
print ("Detected language '%s' with probability %f" % (info.language, info.language_probability))
for segment in segments:
print ("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
✨ 主要特性
极速运行
借助CTranslate2库,实现实时转录。由于Turbo架构的巧妙优化,该模型能在约350ms内处理30秒的音频,让转录几乎在你说话结束前就完成。相比之下,原始的中等模型就显得力不从心了。
多语言支持
EraX-WoW-Turbo不仅速度快,还是一个语言多面手。它在涵盖11种关键语言的多样化数据集上进行了微调:
越南语(涵盖所有8个地区,不会遗漏任何口音 😉)
英语(美国)
中文(普通话)
粤语
印尼语
韩语
日语
俄语
德语
法语
荷兰语
我们相信这个语言选择为广泛的应用提供了坚实的基础。
高准确性
虽然最终的基准测试结果仍在敲定中(即将公布!),但初步测试显示,在包括具有挑战性的越南方言在内的主要语言中,该模型的单词错误率(WER)约为12%。即使你有很重的地方口音,它也能理解你。
精心训练
该模型在大量数据集(约600,000个样本,约1000小时)上进行训练,涵盖了真实世界的音频条件。有噪音也没问题!
开源(MIT许可)
你可以自由使用,没有任何限制。
在线试听
"Chị Lan Anh ơi, em xin lỗi vì sự cố mất sóng vừa rồi. Em đã ghi nhận được hầu hết thông tin rồi ạ. Bây giờ em muốn hỏi chị là hiện tại xe của chị đang ở đâu ạ? Xe vẫn còn ở hiện trường hay đã được di chuyển đến gara hay nơi nào khác?"
📚 详细文档
使用场景
实时转录 :实时字幕、会议、访谈等任何对速度有要求的场景。
语音助手 :构建响应迅速且准确的语音控制应用程序。
媒体字幕 :快速准确地为视频和播客生成字幕。
无障碍工具 :帮助听力障碍人士。
语言学习 :练习发音并获得即时反馈。
多语言通信 :与即将推出的EraX翻译器(约100ms/句延迟)结合使用,打造完整的多语言通信平台。可用于国际会议的即时翻译,甚至是旅行应用程序。
局限性
该模型是基于成人语音进行训练的,可能难以处理婴儿的高音哭声或非常安静的低语。(我们正在努力改进!)请在合适的场景中使用。
参与贡献
我们热衷于让语音识别技术惠及每个人。我们鼓励你:
试用 :下载模型并进行测试。
提供反馈 :告诉我们哪些方面有效,哪些方面需要改进,以及你希望看到哪些功能。(批评时请温柔一些;我们很敏感! 😉)
贡献代码 :如果你是开发者,考虑为项目做出贡献。
EraX团队致力于不断改进我们的模型。请关注未来的更新和更多令人兴奋的发展!
📄 许可证
本项目遵循MIT许可协议,与Whisper的许可协议一致。
📚 引用
如果你发现我们的项目有用,请给我们的仓库点个星,并按以下方式引用我们的工作:
@article{title={EraX-WoW-Turbo-V1.1-CT2: Lắng nghe để Yêu thương.},
author={Nguyễn Anh Nguyên - Phạm Huỳnh Nhật - Cty Bảo hiểm AAA (504h)},
organization={EraX},
year={2025},
url={https://huggingface.co/erax-ai/EraX-WoW-Turbo-V1.1-CT2}
}