P

Phoneme Scorer V2 Wav2vec2

ct-vikramananthaによって開発
Wav2Vec2-Baseアーキテクチャに基づく自動音声認識モデルで、音素認識に特化しており、LJSpeech Phonemesデータセットでファインチューニングされています
ダウンロード数 167
リリース時間 : 7/13/2024

モデル概要

このモデルは自動音声認識(ASR)システムで、音声を単語列ではなく音素列に変換することに焦点を当てています。国際音声記号(IPA)音素を出力単位として使用し、音素レベルの分析が必要な音声処理タスクに適しています。

モデル特徴

音素レベル認識
モデルは従来の単語列ではなく、国際音声記号(IPA)音素列を直接予測し、音素分析が必要な音声処理タスクに適しています
高精度
LJSpeechテストセットで0.99%の音素誤り率(PER)と0.58%の文字誤り率(CER)を達成
Gruut音素セットベース
gruutプロジェクトの国際音声記号(IPA)音素セットを使用し、豊富な音素表現をサポート

モデル能力

音声から音素への変換
自動音声認識
音素レベル分析

使用事例

音声処理
音素分析研究
言語学研究において音声の音素構成を分析するために使用
正確な音素レベルの転写を提供可能
音声合成の前処理
音声合成システムに音素レベルの入力を提供
合成音声の正確性と自然さを向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase