🚀 Whosper-large-v2
Whosper-large-v2是一款前沿的語音識別模型,專為塞內加爾的主要語言沃洛夫語量身定製。它基於OpenAI的Whisper-large-v2構建,在單詞錯誤率(WER)和字符錯誤率(CER)方面有顯著改進,推動了非洲語言處理的發展。無論是轉錄對話、開發語言學習工具還是進行研究,該模型都適用於處理沃洛夫語語音數據的研究人員、開發者和學生。
🚀 快速開始
安裝
pip install git+https://github.com/sudoping01/whosper.git
基礎用法
from whosper import WhosperTranscriber
transcriber = WhosperTranscriber(model_id="CAYTU/whosper-large-v2")
result = transcriber.transcribe_audio("path/to/your/audio.wav")
print(result)
✨ 主要特性
- 卓越的代碼切換能力:能夠處理自然的沃洛夫語 - 法語/英語混合,反映現實世界的語音模式。
- 多語言支持:除了沃洛夫語,在法語和英語方面也表現出色。
- 可用於生產環境:經過全面測試和優化,適合部署。
- 開源:根據apache - 2.0許可證發佈,非常適合研究和開發。
- 專注非洲自然語言處理:有助於實現全面支持非洲語言的更廣泛目標。
📚 詳細文檔
模型概述
Whosper-large-v2是一款前沿的語音識別模型,專為塞內加爾的主要語言沃洛夫語量身定製。它基於OpenAI的Whisper-large-v2構建,在單詞錯誤率(WER)和字符錯誤率(CER)方面有顯著改進,推動了非洲語言處理的發展。無論是轉錄對話、開發語言學習工具還是進行研究,該模型都適用於處理沃洛夫語語音數據的研究人員、開發者和學生。
性能指標
數值越低,準確性越高,非常適合實際應用!
性能對比
指標 |
Whosper-large-v2 |
Whosper-large |
提升 |
WER |
0.2345 |
0.2423 |
提升3.2% |
CER |
0.1101 |
0.1135 |
提升3.0% |
關鍵特性
侷限性
訓練數據
該模型在多樣化的沃洛夫語語音數據上進行訓練:
- ALFFA公共數據集
- FLEURS數據集
- Bus Urbain數據集
- Anta Women TTS數據集
- Kallama數據集
這種多樣性確保了模型在以下方面表現出色:
- 說話風格和方言
- 代碼切換模式
- 性別和年齡組
- 錄音條件
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
0.7575 |
0.9998 |
2354 |
0.7068 |
0.6429 |
1.9998 |
4708 |
0.6073 |
0.5468 |
2.9998 |
7062 |
0.5428 |
0.4439 |
3.9998 |
9416 |
0.4935 |
0.3208 |
4.9998 |
11770 |
0.4600 |
0.2394 |
5.9998 |
14124 |
0.4490 |
框架版本
- PEFT: 0.14.1.dev0
- Transformers: 4.49.0.dev0
- PyTorch: 2.5.1+cu124
- Datasets: 3.2.0
- Tokenizers: 0.21.0
為非洲自然語言處理做貢獻
Whosper-large-v2體現了我們對開放科學和非洲語言技術發展的承諾。我們相信,通過免費提供前沿的語音識別模型,我們可以加速非洲自然語言處理的發展。
加入我們實現人工智能技術民主化的使命:
- 開放科學:使用並基於我們的研究進行構建 - 所有代碼、模型和文檔均為開源。
- 數據貢獻:分享您的沃洛夫語語音數據集,以幫助提高模型性能。
- 研究合作:將Whosper集成到您的研究項目中並分享您的發現。
- 社區建設:幫助我們創建非洲語言處理資源。
- 教育影響:在教育環境中使用Whosper,培養下一代非洲人工智能研究人員。
我們共同努力,可以確保非洲語言在未來的人工智能技術中得到充分體現。無論您是研究人員、開發者、教育工作者還是語言愛好者,您的貢獻都有助於縮小技術差距。
📄 許可證
Apache License 2.0
該模型根據Apache 2.0許可證發佈,以鼓勵在非洲語言技術領域進行研究、商業使用和創新,同時確保適當的歸屬和專利保護。您可以自由地:
- 商業使用該模型
- 修改和分發該模型
- 創建衍生作品
- 將該模型用於專利目的
選擇Apache 2.0符合我們開放科學和推進非洲自然語言處理的目標,同時為社區提供必要的保護。
引用
@misc{whosper2025,
title={Whosper-large: A Multilingual ASR Model for Wolof with Enhanced Code-Switching Capabilities},
author={Seydou DIALLO},
year={2025},
publisher={Hugging Face},
url={https://huggingface.co/CAYTU/whosper-large},
version={1.0}
}
致謝
該模型由Caytu Robotics人工智能部門的Seydou DIALLO開發,基於OpenAI的Whisper-large-v2。特別感謝講沃洛夫語的社區和為非洲語言技術發展做出貢獻的人員。
聯繫我們
如有任何問題或需要支持,請聯繫我們。
郵箱:sdiallo@caytu.com
信息表格
屬性 |
詳情 |
模型類型 |
自動語音識別模型 |
訓練數據 |
ALFFA公共數據集、FLEURS數據集、Bus Urbain數據集、Anta Women TTS數據集、Kallama數據集 |