🚀 EraX-WoW-Turbo V1.1:适用于越南语及更多语言的Whisper Large-v3 Turbo,超强本地化版本!
EraX-WoW-Turbo V1.1基于强大的Whisper Large-v3 Turbo构建,专为越南语及多种语言的语音识别场景进行了优化和本地化处理。它速度极快、准确率高,且遵循MIT许可协议,完全免费使用。
🚀 快速开始
EraX-WoW-Turbo V1.1已经准备好为你提供超快速且准确的语音识别服务。你可以直接下载模型进行测试,体验其卓越性能。
✨ 主要特性
极速识别
借助CTranslate2库实现实时转录。凭借Turbo架构的巧妙优化,该模型仅需约350ms即可处理30秒的音频,让你几乎在说话结束的瞬间就能看到转录结果,远超原始的中等模型。
多语言支持
EraX-WoW-Turbo V1.1是一个语言多面手,在涵盖11种关键语言的多样化数据集上进行了微调:
越南语(涵盖所有8个地区,不会遗漏任何口音😉)
英语(美国)
中文(普通话)
粤语
印尼语
韩语
日语
俄语
德语
法语
荷兰语
这种语言选择为广泛的应用提供了坚实的基础。
高准确率
尽管最终的基准测试结果仍在敲定中(即将公布!),但初步测试显示,在包括具有挑战性的越南方言在内的主要语言中,该模型的单词错误率(WER)约为12%,即使面对浓重的地方口音也能准确识别。
精心训练
模型在大量数据集(约600,000个样本,约1000小时)上进行训练,涵盖了真实世界的音频条件,即使存在噪音也能正常工作。
开源免费
遵循MIT许可协议,你可以自由使用、修改和分发该模型,没有任何限制。
在线体验
你可以点击下面的音频进行试听:
"Chị Lan Anh ơi, em xin lỗi vì sự cố mất sóng vừa rồi. Em đã ghi nhận được hầu hết thông tin rồi ạ. Bây giờ em muốn hỏi chị là hiện tại xe của chị đang ở đâu ạ? Xe vẫn còn ở hiện trường hay đã được di chuyển đến gara hay nơi nào khác?"
🔧 技术细节
性能加速(CTranslate2)
虽然EraX-WoW-Turbo本身已经非常快速,但结合CTranslate2库(https://github.com/OpenNMT/CTranslate2 )使用时,你可以进一步提升其速度,实现高达2.5倍的加速,非常适合对延迟要求极高的应用场景。
💻 使用示例
应用场景
实时转录 :适用于实时字幕、会议、访谈等对速度要求较高的场景。
语音助手 :构建响应迅速且准确的语音控制应用程序。
媒体字幕 :快速准确地为视频和播客生成字幕。
无障碍工具 :帮助听力障碍人士获取信息。
语言学习 :练习发音并获得即时反馈。
多语言通信 :与即将推出的EraX翻译器(约100ms/句延迟)结合使用,打造完整的多语言通信解决方案,适用于国际会议或旅行应用。
📄 许可证
本项目遵循MIT许可协议,与Whisper的许可协议一致。
📚 详细文档
局限性说明
本模型是基于成人语音进行训练的,可能在处理婴儿的高音哭声或非常安静的低语时遇到困难。开发团队正在努力改进这一问题,请在合适的场景中使用该模型。
参与贡献
开发团队致力于让语音识别技术惠及每一个人,鼓励你:
试用模型 :下载模型并进行测试。
提供反馈 :告知我们哪些方面表现良好,哪些方面需要改进,以及你期望看到的新功能。(请温柔地提出批评,开发团队很敏感哦😉)
贡献代码 :如果你是开发者,欢迎为项目做出贡献。
EraX团队将持续改进模型,敬请关注未来的更新和更多令人兴奋的发展!
📝 引用
如果你觉得我们的项目有用,请给我们的仓库点个星,并按照以下格式引用我们的工作:
@article{title={EraX-WoW-Turbo-V1.1: Lắng nghe để Yêu thương.},
author={Nguyễn Anh Nguyên - Phạm Huỳnh Nhật - Cty Bảo hiểm AAA (504h)},
organization={EraX},
year={2025},
url={https://huggingface.co/erax-ai/EraX-WoW-Turbo-V1.1}
}