P

Phoneme Scorer V2 Wav2vec2

Developed by ct-vikramanantha
基於Wav2Vec2-Base架構的自動語音識別模型,專門用於音素識別,在LJSpeech Phonemes數據集上微調
Downloads 167
Release Time : 7/13/2024

Model Overview

該模型是一個自動語音識別(ASR)系統,專注於將語音轉換為音素序列而非單詞序列。它使用國際音標(IPA)音素作為輸出單位,適用於需要音素級別分析的語音處理任務。

Model Features

音素級別識別
模型直接預測國際音標(IPA)音素序列,而非傳統單詞序列,適用於需要音素分析的語音處理任務
高精度
在LJSpeech測試集上達到0.99%的音素錯誤率(PER)和0.58%的字符錯誤率(CER)
基於Gruut音素集
使用gruut項目中的國際音標(IPA)音素集,支持豐富的音素表示

Model Capabilities

語音轉音素
自動語音識別
音素級別分析

Use Cases

語音處理
音素分析研究
用於語言學研究中分析語音的音素構成
可提供精確的音素級別轉錄
語音合成預處理
為語音合成系統提供音素級別的輸入
提高合成語音的準確性和自然度
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase