🚀 Whosper-large-v2
Whosper-large-v2是一款前沿的语音识别模型,专为塞内加尔的主要语言沃洛夫语量身定制。它基于OpenAI的Whisper-large-v2构建,在单词错误率(WER)和字符错误率(CER)方面有显著改进,推动了非洲语言处理的发展。无论是转录对话、开发语言学习工具还是进行研究,该模型都适用于处理沃洛夫语语音数据的研究人员、开发者和学生。
🚀 快速开始
安装
pip install git+https://github.com/sudoping01/whosper.git
基础用法
from whosper import WhosperTranscriber
transcriber = WhosperTranscriber(model_id="CAYTU/whosper-large-v2")
result = transcriber.transcribe_audio("path/to/your/audio.wav")
print(result)
✨ 主要特性
- 卓越的代码切换能力:能够处理自然的沃洛夫语 - 法语/英语混合,反映现实世界的语音模式。
- 多语言支持:除了沃洛夫语,在法语和英语方面也表现出色。
- 可用于生产环境:经过全面测试和优化,适合部署。
- 开源:根据apache - 2.0许可证发布,非常适合研究和开发。
- 专注非洲自然语言处理:有助于实现全面支持非洲语言的更广泛目标。
📚 详细文档
模型概述
Whosper-large-v2是一款前沿的语音识别模型,专为塞内加尔的主要语言沃洛夫语量身定制。它基于OpenAI的Whisper-large-v2构建,在单词错误率(WER)和字符错误率(CER)方面有显著改进,推动了非洲语言处理的发展。无论是转录对话、开发语言学习工具还是进行研究,该模型都适用于处理沃洛夫语语音数据的研究人员、开发者和学生。
性能指标
数值越低,准确性越高,非常适合实际应用!
性能对比
指标 |
Whosper-large-v2 |
Whosper-large |
提升 |
WER |
0.2345 |
0.2423 |
提升3.2% |
CER |
0.1101 |
0.1135 |
提升3.0% |
关键特性
局限性
训练数据
该模型在多样化的沃洛夫语语音数据上进行训练:
- ALFFA公共数据集
- FLEURS数据集
- Bus Urbain数据集
- Anta Women TTS数据集
- Kallama数据集
这种多样性确保了模型在以下方面表现出色:
- 说话风格和方言
- 代码切换模式
- 性别和年龄组
- 录音条件
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
0.7575 |
0.9998 |
2354 |
0.7068 |
0.6429 |
1.9998 |
4708 |
0.6073 |
0.5468 |
2.9998 |
7062 |
0.5428 |
0.4439 |
3.9998 |
9416 |
0.4935 |
0.3208 |
4.9998 |
11770 |
0.4600 |
0.2394 |
5.9998 |
14124 |
0.4490 |
框架版本
- PEFT: 0.14.1.dev0
- Transformers: 4.49.0.dev0
- PyTorch: 2.5.1+cu124
- Datasets: 3.2.0
- Tokenizers: 0.21.0
为非洲自然语言处理做贡献
Whosper-large-v2体现了我们对开放科学和非洲语言技术发展的承诺。我们相信,通过免费提供前沿的语音识别模型,我们可以加速非洲自然语言处理的发展。
加入我们实现人工智能技术民主化的使命:
- 开放科学:使用并基于我们的研究进行构建 - 所有代码、模型和文档均为开源。
- 数据贡献:分享您的沃洛夫语语音数据集,以帮助提高模型性能。
- 研究合作:将Whosper集成到您的研究项目中并分享您的发现。
- 社区建设:帮助我们创建非洲语言处理资源。
- 教育影响:在教育环境中使用Whosper,培养下一代非洲人工智能研究人员。
我们共同努力,可以确保非洲语言在未来的人工智能技术中得到充分体现。无论您是研究人员、开发者、教育工作者还是语言爱好者,您的贡献都有助于缩小技术差距。
📄 许可证
Apache License 2.0
该模型根据Apache 2.0许可证发布,以鼓励在非洲语言技术领域进行研究、商业使用和创新,同时确保适当的归属和专利保护。您可以自由地:
- 商业使用该模型
- 修改和分发该模型
- 创建衍生作品
- 将该模型用于专利目的
选择Apache 2.0符合我们开放科学和推进非洲自然语言处理的目标,同时为社区提供必要的保护。
引用
@misc{whosper2025,
title={Whosper-large: A Multilingual ASR Model for Wolof with Enhanced Code-Switching Capabilities},
author={Seydou DIALLO},
year={2025},
publisher={Hugging Face},
url={https://huggingface.co/CAYTU/whosper-large},
version={1.0}
}
致谢
该模型由Caytu Robotics人工智能部门的Seydou DIALLO开发,基于OpenAI的Whisper-large-v2。特别感谢讲沃洛夫语的社区和为非洲语言技术发展做出贡献的人员。
联系我们
如有任何问题或需要支持,请联系我们。
邮箱:sdiallo@caytu.com
信息表格
属性 |
详情 |
模型类型 |
自动语音识别模型 |
训练数据 |
ALFFA公共数据集、FLEURS数据集、Bus Urbain数据集、Anta Women TTS数据集、Kallama数据集 |