whisper-large-v3-turbo-common_voice_19_0-zh-TWオープンソースモデル - 繁体字中国語（台湾）の音声認識を精度良く実現する

ホーム

Whisper Large V3 Turbo Common Voice 19 0 Zh TW

JacobLinCoolによって開発

OpenAI Whisper-large-v3-turboをファインチューニングした繁体字中国語（台湾）自動音声認識モデル

音声認識

Transformers

中国語オープンソースライセンス:MIT #繁体中国語音声認識 #低単語誤り率 #台湾アクセント最適化

ダウンロード数 220

リリース時間 : 10/31/2024

モデル概要

これは繁体字中国語（台湾）向けに最適化された自動音声認識モデルで、Common Voice 19.0台湾中国語データセットでファインチューニングされており、プロンプト不要の音声テキスト変換タスクをサポートします。

モデル特徴

繁体字中国語最適化

台湾地域の繁体字中国語音声に特化して最適化訓練を実施

大規模データセット

標準Common Voiceデータセットより4倍大きいトレーニングデータを使用（約50kサンプル）

プロンプト不要

追加プロンプトなしで直接使用可能なASRモデルとして設計

Whisper能力継承

元のWhisperモデルの言語認識能力と複数中国語バリアント対応能力を保持

モデル能力

自動音声認識

繁体字中国語音声転写

音声テキスト変換

使用事例

音声転写

会議議事録

台湾地域の中国語会議録音を自動的に文字記録に変換

単語誤り率32.56%、文字誤り率8.60%

音声メモ

日常の音声メモを検索可能なテキスト内容に変換

アクセシビリティ応用

リアルタイム字幕生成

台湾地域の動画コンテンツ向けにリアルタイム中国語字幕を生成

🚀 whisper-large-v3-turbo-common_voice_19_0-zh-TW

このモデルは、オープンソースの繁体字中国語（台湾）の自動音声認識（ASR）モデルです。openai/whisper-large-v3-turbo を JacobLinCool/common_voice_19_0_zh-TW データセットでファインチューニングしたものです。評価セットでは以下の結果を達成しています。

📚 ドキュメント

モデルの説明

これはオープンソースの繁体字中国語（台湾）の自動音声認識（ASR）モデルです。

想定される用途と制限

このモデルは、繁体字中国語用のプロンプト不要のASRモデルとして設計されています。Whisperから引き継いだ言語識別（LID）システムが同じ言語トークン (zh) の下で他の中国語のバリアントをサポートしているため、簡体字中国語を文字起こしする際には性能が低下する可能性があります。

このモデルはMITライセンスの下で自由に使用できます。

学習と評価データ

このモデルは、Common Voice Corpus 19.0 Chinese (Taiwan) Subset で学習されました。このデータセットには約50kの学習例（44時間）と5kのテスト例（5時間）が含まれています。このデータセットは、mozilla-foundation/common_voice_16_1 の学習セットと検証セット (train+validation) の組み合わせ（約12kの例）の約4倍の大きさです。

学習手順

Tensorboard

学習ハイパーパラメータ

学習中に以下のハイパーパラメータが使用されました。

learning_rate: 0.0002
train_batch_size: 4
eval_batch_size: 32
seed: 42
gradient_accumulation_steps: 8
total_train_batch_size: 32
optimizer: OptimizerNames.ADAMW_TORCHを使用し、betas=(0.9,0.999)、epsilon=1e-08、optimizer_args=追加のオプティマイザ引数なし
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 50
training_steps: 5000

学習結果

学習損失	エポック	ステップ	検証損失	Wer	Cer	デコード実行時間	Wer実行時間	Cer実行時間
No log	0	0	2.7208	76.5011	20.4851	89.4916	0.1213	0.1639
1.1832	0.1	500	0.1939	39.9561	10.8721	90.0926	0.1222	0.1555
1.5179	0.2	1000	0.1774	37.6621	9.9322	89.8657	0.1225	0.1545
0.6179	0.3	1500	0.1796	36.2657	9.8325	90.2480	0.1198	0.1573
0.3626	1.0912	2000	0.1846	36.2258	9.7801	90.3306	0.1196	0.1539
0.1311	1.1912	2500	0.1776	34.8095	9.3214	90.3124	0.1286	0.1610
0.1263	1.2912	3000	0.1763	36.1261	9.3563	90.4271	0.1330	0.1650
0.2194	2.0825	3500	0.1891	34.6898	9.3114	91.1932	0.1320	0.1643
0.1127	2.1825	4000	0.1838	34.0714	9.1095	90.2416	0.1196	0.1529
0.3792	2.2824	4500	0.1786	33.1339	8.7679	90.9144	0.1310	0.1550
0.0606	3.0737	5000	0.1786	32.5554	8.6009	90.9833	0.1257	0.1534