W

Wav2vec2 Large Xlsr 53 Hk

voidfulによって開発
facebook/wav2vec2-large-xlsr-53を広東語(Common Voiceデータセット使用)でファインチューニングした音声認識モデル
ダウンロード数 26
リリース時間 : 3/2/2022

モデル概要

これは広東語(香港)向けに最適化された自動音声認識モデルで、Wav2Vec2アーキテクチャに基づき、広東語音声をテキストに変換するのに適しています。

モデル特徴

広東語最適化
広東語(香港)方言に特化してファインチューニングされており、認識精度が向上しています
XLSRモデルベース
強力なwav2vec2-large-xlsr-53を基盤としており、優れた音声特徴抽出能力を備えています
16kHzサンプリングレート対応
16kHzサンプリングレートの音声入力を最適に処理します

モデル能力

広東語音声認識
音声からテキストへの変換
音声内容の文字起こし

使用事例

音声文字起こし
広東語会議議事録
広東語の会議録音を自動的に文字記録に変換
CER 16.41
メディアコンテンツ字幕生成
広東語動画コンテンツの字幕を自動生成
音声アシスタント
広東語音声コマンド認識
広東語対応スマートデバイスの音声制御に使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase