Whosper-large-v2オープンソース音声認識モデル - セネガルのウォロフ語音声を高精度に認識

Whosper Large V2

CAYTUによって開発

Whosper-large-v2は、セネガルの主要言語であるウォロフ語に特化した最先端の音声認識モデルで、OpenAIのWhisper-large-v2を基に構築されており、単語誤り率（WER）と文字誤り率（CER）を大幅に改善しています。

音声認識

Safetensors

複数言語対応オープンソースライセンス:Apache-2.0 #ウォロフ語音声認識 #コードスイッチング最適化 #アフリカ言語処理

ダウンロード数 449

リリース時間 : 1/15/2025

モデル概要

このモデルはウォロフ語の音声認識に焦点を当てつつ、フランス語と英語もサポートし、優れたコードスイッチング能力を備えており、会話の書き起こし、言語学習ツールの構築、または研究に適しています。

モデル特徴

優れたコードスイッチング

ウォロフ語とフランス語/英語の混合を自然に処理し、現実世界の音声パターンを反映

多言語サポート

ウォロフ語に加え、フランス語と英語でも優れた性能を発揮

プロダクション対応

包括的なテストと最適化を経ており、デプロイに適している

オープンソース

apache-2.0ライセンスで公開されており、研究開発に最適

アフリカ自然言語処理への注力

より広範なアフリカ言語サポートの実現を目指す

モデル能力

ウォロフ語音声認識

フランス語音声認識

英語音声認識

コードスイッチング処理

使用事例

音声書き起こし

会話の書き起こし

ウォロフ語の会話内容を書き起こす

WER 0.2345, CER 0.1101

教育

言語学習ツール

ウォロフ語学習アプリの音声認識コンポーネントを構築

研究

アフリカ言語処理研究

アフリカ言語の音声認識関連研究に利用

🚀 Whosper-large-v2

Whosper-large-v2は、セネガルの主要言語であるウォロフ語に特化した最先端の音声認識モデルです。OpenAIのWhisper-large-v2をベースに構築され、単語誤り率（WER）と文字誤り率（CER）において顕著な改善をもたらし、アフリカの言語処理を進歩させます。会話の文字起こし、言語学習ツールの構築、または研究を行う際に、このモデルはウォロフ語の音声データを扱う研究者、開発者、学生に最適です。

🚀 クイックスタート

インストール

pip install git+https://github.com/sudoping01/whosper.git

基本的な使用法

from whosper import WhosperTranscriber

# 文字起こし器を初期化
transcriber = WhosperTranscriber(model_id="CAYTU/whosper-large-v2") 

# 音声ファイルを文字起こし
result = transcriber.transcribe_audio("path/to/your/audio.wav")
print(result)

✨ 主な機能

主な強み

卓越したコードスイッチング: 現実の会話パターンを反映した、ウォロフ語とフランス語/英語の自然な混合を処理します。
多言語対応: ウォロフ語の他、フランス語と英語でも良好な性能を発揮します。
本番環境対応: デプロイのために十分にテストされ、最適化されています。
オープンソース: apache-2.0ライセンスの下で公開されており、研究や開発に最適です。
アフリカの自然言語処理に特化: 包括的なアフリカ言語サポートという広い目標に貢献します。

主な特徴

whosper-largeと比較して、単語誤り率（WER）と文字誤り率（CER）が改善されています。
ウォロフ語とフランス語の認識に最適化されています。
バイリンガルコンテンツでの性能が向上しています。

📚 ドキュメント

性能指標

WER: 0.2345
CER: 0.1101

値が低いほど精度が高く、実用的なアプリケーションに最適です！

性能比較

指標	Whosper-large-v2	Whosper-large	改善率
WER	0.2345	0.2423	3.2%改善
CER	0.1101	0.1135	3.0%改善

制限事項

whosper-largeと比較して、英語での性能が低下しています。
whosper-largeと比較して、一般的な多言語コンテンツでの効果が低くなっています。
非常に悪い音質の音声では性能が低くなります。

学習データ

様々なウォロフ語の音声データで学習されています。

ALFFA Public Dataset
FLEURS Dataset
Bus Urbain Dataset
Anta Women TTS Dataset
Kallama Dataset

この多様性により、モデルは以下の様々な条件で優れた性能を発揮します。

話し方のスタイルや方言
コードスイッチングのパターン
性別や年齢層
録音条件

学習結果

学習損失	エポック	ステップ	検証損失
0.7575	0.9998	2354	0.7068
0.6429	1.9998	4708	0.6073
0.5468	2.9998	7062	0.5428
0.4439	3.9998	9416	0.4935
0.3208	4.9998	11770	0.4600
0.2394	5.9998	14124	0.4490

フレームワークのバージョン

PEFT: 0.14.1.dev0
Transformers: 4.49.0.dev0
PyTorch: 2.5.1+cu124
Datasets: 3.2.0
Tokenizers: 0.21.0

アフリカの自然言語処理への貢献

Whosper-large-v2は、オープンサイエンスとアフリカの言語技術の進歩への我々のコミットメントを体現しています。最先端の音声認識モデルを無料で利用可能にすることで、アフリカ全体の自然言語処理の開発を加速できると信じています。

AI技術の民主化の使命に参加しましょう。

オープンサイエンス: 私たちの研究を利用し、発展させてください - すべてのコード、モデル、およびドキュメントはオープンソースです。
データ提供: ウォロフ語の音声データセットを共有して、モデルの性能向上に貢献してください。
研究協力: Whosperをあなたの研究プロジェクトに組み込み、結果を共有してください。
コミュニティ構築: アフリカの言語処理のためのリソースを作成するのを手伝ってください。
教育への影響: アフリカの次世代のAI研究者を育成するために、教育現場でWhosperを使用してください。

私たちは、アフリカの言語がAI技術の未来に十分に反映されることを確保するために協力しましょう。研究者、開発者、教育者、または言語愛好家であれ、あなたの貢献によって技術的な格差を埋めることができます。

📄 ライセンス

Apache License 2.0

このモデルは、アフリカの言語技術の研究、商用利用、およびイノベーションを促進し、適切な帰属と特許保護を確保するために、Apache 2.0ライセンスの下で公開されています。あなたは以下のことが自由にできます。

モデルを商用利用する。
モデルを変更し、配布する。
派生作品を作成する。
モデルを特許目的で使用する。

Apache 2.0を選択することは、オープンサイエンスとアフリカの自然言語処理の進歩という私たちの目標に合致し、コミュニティに必要な保護を提供します。

引用

@misc{whosper2025,
  title={Whosper-large: A Multilingual ASR Model for Wolof with Enhanced Code-Switching Capabilities},
  author={Seydou DIALLO},
  year={2025},
  publisher={Hugging Face},
  url={https://huggingface.co/CAYTU/whosper-large},
  version={1.0}
}