whisper-large-v2-cantoneseオープンソース広東語音声認識モデル - 無料でデプロイし、広東語音声を正確に認識可能

ホーム

Whisper Large V2 Cantonese

Scryaによって開発

OpenAI Whisper Large V2モデルを微調整した広東語自動音声認識(ASR)モデルで、Common Voice 11.0広東語データセットで訓練され、文字誤り率(CER)は6.21%です。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #広東語音声認識 #低文字誤り率 #リアルタイム音声強調

ダウンロード数 210

リリース時間 : 12/19/2022

モデル概要

これは広東語に特化して最適化された自動音声認識モデルで、データ拡張技術により認識精度が向上し、広東語音声から文字への変換シナリオに適しています。

モデル特徴

広東語最適化

広東語の音声特性に特化して微調整されており、汎用モデルと比べてより良い認識精度を実現

データ拡張

訓練時にピッチシフトやタイムストレッチなどの音声拡張技術を使用し、モデルの頑健性を向上

低誤り率

Common Voice広東語テストセットで6.21%の文字誤り率(CER)を達成

モデル能力

広東語音声認識

音声から文字への変換

音声書き起こし

使用事例

音声書き起こし

広東語会議議事録

広東語会議録音を自動的に文字記録に変換

約93.79%の精度(CER 6.21%)

メディア字幕生成

広東語動画コンテンツの自動字幕生成

音声アシスタント

広東語音声コマンド認識

広東語対応のスマートホームや音声アシスタントシステム向け

プロパティ	詳細
モデルタイプ	Whisper Large V2 - 広東語 - 拡張版
訓練データ	mozilla-foundation/common_voice_11_0 (train+validation)
評価データ	mozilla-foundation/common_voice_11_0 (test)

訓練損失	エポック	ステップ	検証損失	文字誤り率 (CER)
0.1126	1.21	200	0.1666	7.3103
0.0467	2.42	400	0.1610	6.9419
0.0217	3.63	600	0.1621	6.3874
0.008	4.85	800	0.1699	6.3064
0.0023	6.06	1000	0.1828	6.2133

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Whisper Large V2 Cantonese

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Whisper Large V2 - 広東語 - 拡張版

📚 詳細ドキュメント

モデル情報

訓練手順

訓練ハイパーパラメータ

訓練結果

フレームワークバージョン

📄 ライセンス