whisper-large-v3-cantoneseオープンソースモデル - 無料で広東語自動音声認識を実現

ホーム

Whisper Large V3 Cantonese

khleelooによって開発

Whisper v3を微調整した広東語自動音声認識モデル、Common Voice 17データセットで訓練

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #広東語音声認識 #Whisper微調整 #低文字誤り率

ダウンロード数 25

リリース時間 : 12/4/2024

モデル概要

このモデルはWhisper v3モデルを微調整したバージョンで、広東語(Yue)の自動音声認識(ASR)タスクに特化して訓練されています。音声アシスタント、文字起こしサービスなどのアプリケーションに適しています。

モデル特徴

広東語音声認識

広東語に最適化された音声認識能力

Whisper v3アーキテクチャ

OpenAIの強力なWhisper v3モデルアーキテクチャを基に構築

効率的な微調整

Common Voice 17データセットで10エポックの微調整を実施

モデル能力

広東語音声からテキストへの変換

自動音声認識

音声文字起こし

使用事例

音声アシスタント

広東語音声アシスタント

広東語ユーザー向けの音声インタラクション機能を提供

文字起こしサービス

広東語音声文字起こし

広東語音声コンテンツをテキストに変換

アクセシビリティ機能

広東語アクセシビリティサービス

広東語使用者向けの音声からテキストへのアクセシビリティ機能を提供

🚀 変換器（transformers）モデルカード

このモデルは、Whisper v3モデルを微調整したもので、広東語（粵語）の自動音声認識（ASR）用に特別に学習されています。このモデルは、Common Voice 17データセットのデータを使用して、学習率1e-7で10エポック間微調整されています。

🚀 クイックスタート

このモデルを使用するには、Hugging Face Transformersライブラリを使って読み込むことができます。

from transformers import WhisperProcessor, WhisperForConditionalGeneration

model = WhisperForConditionalGeneration.from_pretrained("your_username/whisper-cantonese")
processor = WhisperProcessor.from_pretrained("your_username/whisper-cantonese")

✨ 主な機能

広東語（粵語）の自動音声認識に特化したモデルです。
音声アシスタント、文字起こしサービス、広東語話者向けのアクセシビリティ機能など、様々なアプリケーションに使用できます。

📦 インストール

このモデルを使用するには、Hugging Face Transformersライブラリをインストールする必要があります。以下のコードでモデルを読み込むことができます。

from transformers import WhisperProcessor, WhisperForConditionalGeneration

model = WhisperForConditionalGeneration.from_pretrained("your_username/whisper-cantonese")
processor = WhisperProcessor.from_pretrained("your_username/whisper-cantonese")

💻 使用例

基本的な使用法

from transformers import WhisperProcessor, WhisperForConditionalGeneration

model = WhisperForConditionalGeneration.from_pretrained("your_username/whisper-cantonese")
processor = WhisperProcessor.from_pretrained("your_username/whisper-cantonese")

📚 ドキュメント

モデルの詳細

プロパティ	詳細
モデルタイプ	Whisper v3
言語	広東語（粵語）
学習データセット	Common Voice 17
学習期間	10エポック
学習率	1e-7
凍結層	デコーダの12層が学習中に凍結されています

モデルの説明

これは🤗 transformersモデルのモデルカードで、Hubにアップロードされています。このモデルカードは自動生成されています。

開発者: khleeloo (Rita Frieske)
言語 (NLP): 広東語
ライセンス: apache-2.0
微調整元のモデル [オプション]: openai/whisper-large-v3

用途

このモデルは、広東語の音声認識機能が必要なアプリケーションを構築することに興味がある研究者や開発者を対象としています。以下のような様々なアプリケーションで使用できます。

音声アシスタント
文字起こしサービス
広東語話者向けのアクセシビリティ機能

バイアス、リスク、制限

このモデルは広東語用に特別に微調整されており、他の言語や方言では性能が低下する可能性があります。音声入力の品質やアクセントによって性能が異なる場合があります。また、モデルの有効性は学習データの多様性と豊富さに依存します。

評価

テストデータ、要因、メトリクス

Common Voice_17_0 yue test split、Common Voice 15_0 yue test split、およびCommon Voice 15_0 zh-HK test split（これらのテストデータセットはWhisper 3.0の評価に使用されました）

メトリクス

広東語は文字ベースの言語であるため、文字誤り率（CER）を使用します。

結果

	CV15_0 zh-HK	CV 15_0 yue	CV 17_0 yue
Whisper large v3	10.8	16	-
Whisper cantonese (ours)	18.88	8.77	7.26

説明: このモデルは、書き言葉の広東語が多いzh-HKデータではなく、口語的な広東語（yue）で学習されています。したがって、Common Voiceデータセットのzh-HK分割での性能は低くなります。

引用 [オプション]

@misc {rita_frieske_2025,
	author       = { {Rita Frieske} },
	title        = { whisper-large-v3-cantonese },
	year         = 2025,
	url          = { https://huggingface.co/khleeloo/whisper-large-v3-cantonese },
	doi          = { 10.57967/hf/4393 },
	publisher    = { Hugging Face }
}