A

Asr Wav2vec2 Commonvoice 14 Es

speechbrainによって開発
これはCommonVoiceスペイン語データセットでトレーニングされたエンドツーエンド自動音声認識システムで、wav2vec 2.0事前トレーニングモデルとCTCデコーダーを組み合わせています。
ダウンロード数 22
リリース時間 : 8/9/2023

モデル概要

このモデルはスペイン語音声認識に使用され、トークナイザーと音響モデルで構成されており、スペイン語の音声をテキストに変換できます。

モデル特徴

エンドツーエンド音声認識
音声入力からテキスト出力までの完全な音声認識プロセスを提供します
wav2vec 2.0事前トレーニングモデルベース
facebook/wav2vec2-large-xlsr-53事前トレーニングモデルを基盤としており、強力な音響特徴抽出能力を持っています
CTCデコーダー
CTC(Connectionist Temporal Classification)をデコーダーとして採用しており、シーケンス間タスクに適しています
言語モデル不要
外部の言語モデルに依存せずに音声認識を完了できます

モデル能力

スペイン語音声認識
音声文字起こし
16kHzモノラル音声処理

使用事例

音声文字起こし
スペイン語音声からテキストへの変換
スペイン語の音声コンテンツをテキスト形式に変換します
テスト単語誤り率13.28%、文字誤り率3.80%
音声アシスタント
スペイン語音声コマンド認識
スペイン語音声アシスタントやスマートホームデバイスの音声コマンド認識に使用されます
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase