U

Unispeech 1350 En 168 Es Ft 1h

microsoftによって開発
UniSpeechは統一音声表現学習モデルで、ラベル付きデータとラベルなしデータを組み合わせた事前学習を行い、特にスペイン語の音素認識向けにファインチューニングされています。
ダウンロード数 19
リリース時間 : 3/2/2022

モデル概要

このモデルは16kHzサンプリングの音声オーディオと音素ラベルで事前学習され、1時間のスペイン語音素データでファインチューニングされています。主に音素分類タスクに使用されます。

モデル特徴

統一表現学習
マルチタスク学習により、教師あり音素CTC学習と音素認識対比自己教師あり学習を同時に行う
言語横断能力
CommonVoiceコーパスにおいて優れた言語横断的表現学習効果を示す
ドメイン適応性
ドメイン転移音声認識タスクにおいて、従来手法と比べて6%の相対単語誤り率低下を実現

モデル能力

音声認識
音素分類
言語横断的音声処理

使用事例

音声認識
スペイン語音素認識
スペイン語音声を音素シーケンスに変換
自己教師あり事前学習と教師あり転移学習と比較して、最大13.4%と17.8%の相対音素誤り率低下を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase