W

Wav2vec2 Large XLSR 53 Catalan

PereLluis13によって開発
facebook/wav2vec2-large-xlsr-53モデルをベースに微調整されたカタルーニャ語自動音声認識(ASR)モデルで、Common Voiceカタルーニャ語データセットで訓練され、単語誤り率(WER)は8.11%です。
ダウンロード数 11.57k
リリース時間 : 3/2/2022

モデル概要

これはカタルーニャ語の自動音声認識に使用されるモデルで、XLSR - 53アーキテクチャをベースに微調整され、16kHzのサンプリングレートの音声入力をサポートします。

モデル特徴

高性能認識
Common Voiceカタルーニャ語テストセットで8.11%の単語誤り率を達成します。
言語モデル不要
追加の言語モデルを統合する必要なく、直接使用できます。
訓練プロセスの最適化
バッチサイズと勾配ステップを調整することで訓練を最適化し、一部のサンプルにピッチ処理を行います。

モデル能力

カタルーニャ語音声認識
16kHzオーディオ処理

使用事例

音声から文字への変換
カタルーニャ語の文字起こし
カタルーニャ語の音声を文字に変換します。
8.11%単語誤り率
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase