🚀 Whosper-large-v2
Whosper-large-v2は、セネガルの主要言語であるウォロフ語に特化した最先端の音声認識モデルです。OpenAIのWhisper-large-v2をベースに構築され、単語誤り率(WER)と文字誤り率(CER)において顕著な改善をもたらし、アフリカの言語処理を進歩させます。会話の文字起こし、言語学習ツールの構築、または研究を行う際に、このモデルはウォロフ語の音声データを扱う研究者、開発者、学生に最適です。
🚀 クイックスタート
インストール
pip install git+https://github.com/sudoping01/whosper.git
基本的な使用法
from whosper import WhosperTranscriber
transcriber = WhosperTranscriber(model_id="CAYTU/whosper-large-v2")
result = transcriber.transcribe_audio("path/to/your/audio.wav")
print(result)
✨ 主な機能
主な強み
- 卓越したコードスイッチング: 現実の会話パターンを反映した、ウォロフ語とフランス語/英語の自然な混合を処理します。
- 多言語対応: ウォロフ語の他、フランス語と英語でも良好な性能を発揮します。
- 本番環境対応: デプロイのために十分にテストされ、最適化されています。
- オープンソース: apache-2.0ライセンスの下で公開されており、研究や開発に最適です。
- アフリカの自然言語処理に特化: 包括的なアフリカ言語サポートという広い目標に貢献します。
主な特徴
- whosper-largeと比較して、単語誤り率(WER)と文字誤り率(CER)が改善されています。
- ウォロフ語とフランス語の認識に最適化されています。
- バイリンガルコンテンツでの性能が向上しています。
📚 ドキュメント
性能指標
値が低いほど精度が高く、実用的なアプリケーションに最適です!
性能比較
指標 |
Whosper-large-v2 |
Whosper-large |
改善率 |
WER |
0.2345 |
0.2423 |
3.2%改善 |
CER |
0.1101 |
0.1135 |
3.0%改善 |
制限事項
学習データ
様々なウォロフ語の音声データで学習されています。
- ALFFA Public Dataset
- FLEURS Dataset
- Bus Urbain Dataset
- Anta Women TTS Dataset
- Kallama Dataset
この多様性により、モデルは以下の様々な条件で優れた性能を発揮します。
- 話し方のスタイルや方言
- コードスイッチングのパターン
- 性別や年齢層
- 録音条件
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
0.7575 |
0.9998 |
2354 |
0.7068 |
0.6429 |
1.9998 |
4708 |
0.6073 |
0.5468 |
2.9998 |
7062 |
0.5428 |
0.4439 |
3.9998 |
9416 |
0.4935 |
0.3208 |
4.9998 |
11770 |
0.4600 |
0.2394 |
5.9998 |
14124 |
0.4490 |
フレームワークのバージョン
- PEFT: 0.14.1.dev0
- Transformers: 4.49.0.dev0
- PyTorch: 2.5.1+cu124
- Datasets: 3.2.0
- Tokenizers: 0.21.0
アフリカの自然言語処理への貢献
Whosper-large-v2は、オープンサイエンスとアフリカの言語技術の進歩への我々のコミットメントを体現しています。最先端の音声認識モデルを無料で利用可能にすることで、アフリカ全体の自然言語処理の開発を加速できると信じています。
AI技術の民主化の使命に参加しましょう。
- オープンサイエンス: 私たちの研究を利用し、発展させてください - すべてのコード、モデル、およびドキュメントはオープンソースです。
- データ提供: ウォロフ語の音声データセットを共有して、モデルの性能向上に貢献してください。
- 研究協力: Whosperをあなたの研究プロジェクトに組み込み、結果を共有してください。
- コミュニティ構築: アフリカの言語処理のためのリソースを作成するのを手伝ってください。
- 教育への影響: アフリカの次世代のAI研究者を育成するために、教育現場でWhosperを使用してください。
私たちは、アフリカの言語がAI技術の未来に十分に反映されることを確保するために協力しましょう。研究者、開発者、教育者、または言語愛好家であれ、あなたの貢献によって技術的な格差を埋めることができます。
📄 ライセンス
Apache License 2.0
このモデルは、アフリカの言語技術の研究、商用利用、およびイノベーションを促進し、適切な帰属と特許保護を確保するために、Apache 2.0ライセンスの下で公開されています。あなたは以下のことが自由にできます。
- モデルを商用利用する。
- モデルを変更し、配布する。
- 派生作品を作成する。
- モデルを特許目的で使用する。
Apache 2.0を選択することは、オープンサイエンスとアフリカの自然言語処理の進歩という私たちの目標に合致し、コミュニティに必要な保護を提供します。
引用
@misc{whosper2025,
title={Whosper-large: A Multilingual ASR Model for Wolof with Enhanced Code-Switching Capabilities},
author={Seydou DIALLO},
year={2025},
publisher={Hugging Face},
url={https://huggingface.co/CAYTU/whosper-large},
version={1.0}
}
謝辞
このモデルは、Caytu RoboticsのAI部門のSeydou DIALLOによって開発され、OpenAIのWhisper-large-v2をベースに構築されています。アフリカの言語技術を進歩させるウォロフ語話者のコミュニティと貢献者に特別な感謝を申し上げます。
お問い合わせ
何か質問やサポートが必要な場合は、お問い合わせください。
メール: sdiallo@caytu.com