D

Distil Whisper Small Cantonese

alvanliiによって開発
これはWhisper Smallをベースにした広東語音声認識蒸留モデルで、Common Voice 16.0で9.7のCER(句読点なし)を達成しました。
ダウンロード数 187
リリース時間 : 4/3/2024

モデル概要

このモデルはWhisper Smallの蒸留版で、広東語音声認識タスクに特化して最適化されており、より小さなモデルサイズと高速な推論速度を実現しています。

モデル特徴

効率的な推論
オリジナルのWhisper Smallモデルと比較して推論速度が約50%向上、GPU VRAM要件は約2GBのみ
広東語最適化
広東語音声認識タスクに特化してトレーニングと最適化を実施
軽量
デコーダ層数の削減によりモデル圧縮を実現、パラメータ数を242Mから157Mに削減

モデル能力

広東語音声認識
音声からテキストへの変換
音声文字起こし

使用事例

音声文字起こし
広東語会議議事録
広東語会議録音を自動的に文字起こし
Common Voice 16.0テストセットで9.7%の文字誤り率(CER)を達成
メディア字幕生成
広東語動画コンテンツの自動字幕生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase