whisper-large-v2-cantoneseオープンソース広東語音声認識モデル

ホーム

Whisper Large V2 Cantonese

simonl0909によって開発

OpenAI Whisper Large V2を広東語データセットでファインチューニングした自動音声認識モデルで、テストセットで6.7274%の文字誤り率を達成

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #広東語音声認識 #低文字誤り率 #Common Voiceファインチューニング

ダウンロード数 131

リリース時間 : 12/11/2022

モデル概要

広東語に特化して最適化された音声認識モデルで、広東語音声から文字への変換タスクに適しています

モデル特徴

広東語最適化

Common Voice広東語データセットでファインチューニングされ、広東語音声認識に特化して最適化されています

低誤り率

テストセットで6.7274%の文字誤り率(CER)を達成し、優れた性能を発揮

Whisperアーキテクチャベース

強力なWhisper Large V2ベースモデルを基盤としており、その優れた音声認識能力を継承しています

モデル能力

広東語音声認識

音声から文字へ

自動音声転写

使用事例

音声転写

広東語会議議事録

広東語の会議内容を自動的に文字記録に転写

文字誤り率6.7274%

広東語メディア字幕生成

広東語の動画コンテンツに自動的に字幕を生成

音声アシスタント

広東語音声インタラクション

広東語音声コマンド認識をサポート

プロパティ	詳細
モデルタイプ	Whisper Large V2 Cantonese
ベースモデル	openai/whisper-large-v2
訓練データセット	mozilla-foundation/common_voice_11_0
評価指標	文字誤り率 (CER)

訓練損失	エポック	ステップ	検証損失	文字誤り率 (CER)
0.0032	13.01	1000	0.2318	6.8569
0.002	26.01	2000	0.2404	7.1524
0.0001	39.02	3000	0.2807	6.7274
0.0001	53.01	4000	0.2912	6.7517
0.0	66.01	5000	0.2957	6.7638

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Whisper Large V2 Cantonese

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Whisper Large V2 Cantonese

📚 ドキュメント

モデル情報

モデルの意図された用途と制限

訓練と評価データ

訓練手順

訓練ハイパーパラメータ

訓練結果

フレームワークバージョン

📄 ライセンス