W

Wav2vec2 Lv 60 Espeak Cv Ft

facebookによって開発
このモデルはWav2Vec2-Large-LV60事前学習モデルを基に、CommonVoiceデータセットでファインチューニングされ、多言語音素認識に使用されます。
ダウンロード数 18.77k
リリース時間 : 3/2/2022

モデル概要

このモデルは主に多言語の音素認識タスクに使用され、音声入力を音素ラベルに変換できます。音素から単語へのマッピング辞書と併用する必要があります。

モデル特徴

多言語サポート
複数言語の音素認識をサポート
CommonVoiceベースのファインチューニング
CommonVoiceデータセットでファインチューニングされており、認識精度が向上
音素レベル認識
出力は音素ラベルで、辞書と組み合わせて単語に変換する必要がある

モデル能力

音声認識
音素認識
多言語処理

使用事例

音声転写
多言語音声転写
複数言語の音声を音素ラベルに変換
さらに文字に変換可能
音声学研究
音素分析
異なる言語の音素分布と特徴を分析するために使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase