W

Wav2vec2 Large Xlsr Cantonese

ctlによって開発
Facebookのwav2vec2-large-xlsr-53モデルをファインチューニングした広東語音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。
ダウンロード数 1,010
リリース時間 : 3/2/2022

モデル概要

このモデルは広東語に最適化された自動音声認識(ASR)モデルで、Facebookのwav2vec2-large-xlsr-53アーキテクチャを基に、Common Voice広東語データセットでファインチューニングされています。

モデル特徴

広東語最適化
広東語の音声特性に特化してファインチューニングされ、認識精度が向上しています
言語モデル不要
追加の言語モデルなしで直接使用可能
16kHzサンプリングレート対応
標準16kHzサンプリングレートの音声入力をサポート

モデル能力

広東語音声認識
自動音声テキスト変換

使用事例

音声書き起こし
広東語音声からテキストへ
広東語音声内容をテキストに変換
テストCERは15.36%
音声アシスタント
広東語音声インタラクション
広東語ユーザー向け音声インタラクション機能を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase