🚀 変換器(transformers)モデルカード
このモデルは、Whisper v3モデルを微調整したもので、広東語(粵語)の自動音声認識(ASR)用に特別に学習されています。このモデルは、Common Voice 17データセットのデータを使用して、学習率1e-7で10エポック間微調整されています。
🚀 クイックスタート
このモデルを使用するには、Hugging Face Transformersライブラリを使って読み込むことができます。
from transformers import WhisperProcessor, WhisperForConditionalGeneration
model = WhisperForConditionalGeneration.from_pretrained("your_username/whisper-cantonese")
processor = WhisperProcessor.from_pretrained("your_username/whisper-cantonese")
✨ 主な機能
- 広東語(粵語)の自動音声認識に特化したモデルです。
- 音声アシスタント、文字起こしサービス、広東語話者向けのアクセシビリティ機能など、様々なアプリケーションに使用できます。
📦 インストール
このモデルを使用するには、Hugging Face Transformersライブラリをインストールする必要があります。以下のコードでモデルを読み込むことができます。
from transformers import WhisperProcessor, WhisperForConditionalGeneration
model = WhisperForConditionalGeneration.from_pretrained("your_username/whisper-cantonese")
processor = WhisperProcessor.from_pretrained("your_username/whisper-cantonese")
💻 使用例
基本的な使用法
from transformers import WhisperProcessor, WhisperForConditionalGeneration
model = WhisperForConditionalGeneration.from_pretrained("your_username/whisper-cantonese")
processor = WhisperProcessor.from_pretrained("your_username/whisper-cantonese")
📚 ドキュメント
モデルの詳細
プロパティ |
詳細 |
モデルタイプ |
Whisper v3 |
言語 |
広東語(粵語) |
学習データセット |
Common Voice 17 |
学習期間 |
10エポック |
学習率 |
1e-7 |
凍結層 |
デコーダの12層が学習中に凍結されています |
モデルの説明
これは🤗 transformersモデルのモデルカードで、Hubにアップロードされています。このモデルカードは自動生成されています。
- 開発者: khleeloo (Rita Frieske)
- 言語 (NLP): 広東語
- ライセンス: apache-2.0
- 微調整元のモデル [オプション]: openai/whisper-large-v3
用途
このモデルは、広東語の音声認識機能が必要なアプリケーションを構築することに興味がある研究者や開発者を対象としています。以下のような様々なアプリケーションで使用できます。
- 音声アシスタント
- 文字起こしサービス
- 広東語話者向けのアクセシビリティ機能
バイアス、リスク、制限
このモデルは広東語用に特別に微調整されており、他の言語や方言では性能が低下する可能性があります。音声入力の品質やアクセントによって性能が異なる場合があります。また、モデルの有効性は学習データの多様性と豊富さに依存します。
評価
テストデータ、要因、メトリクス
Common Voice_17_0 yue test split、Common Voice 15_0 yue test split、およびCommon Voice 15_0 zh-HK test split(これらのテストデータセットはWhisper 3.0の評価に使用されました)
メトリクス
広東語は文字ベースの言語であるため、文字誤り率(CER)を使用します。
結果
|
CV15_0 zh-HK |
CV 15_0 yue |
CV 17_0 yue |
Whisper large v3 |
10.8 |
16 |
- |
Whisper cantonese (ours) |
18.88 |
8.77 |
7.26 |
説明: このモデルは、書き言葉の広東語が多いzh-HKデータではなく、口語的な広東語(yue)で学習されています。したがって、Common Voiceデータセットのzh-HK分割での性能は低くなります。
引用 [オプション]
@misc {rita_frieske_2025,
author = { {Rita Frieske} },
title = { whisper-large-v3-cantonese },
year = 2025,
url = { https://huggingface.co/khleeloo/whisper-large-v3-cantonese },
doi = { 10.57967/hf/4393 },
publisher = { Hugging Face }
}
モデルカードの作成者 [オプション]
https://khleeloo.github.io/