P

Phoneme Scorer V2 Wav2vec2

由ct-vikramanantha開發
基於Wav2Vec2-Base架構的自動語音識別模型,專門用於音素識別,在LJSpeech Phonemes數據集上微調
下載量 167
發布時間 : 7/13/2024

模型概述

該模型是一個自動語音識別(ASR)系統,專注於將語音轉換為音素序列而非單詞序列。它使用國際音標(IPA)音素作為輸出單位,適用於需要音素級別分析的語音處理任務。

模型特點

音素級別識別
模型直接預測國際音標(IPA)音素序列,而非傳統單詞序列,適用於需要音素分析的語音處理任務
高精度
在LJSpeech測試集上達到0.99%的音素錯誤率(PER)和0.58%的字符錯誤率(CER)
基於Gruut音素集
使用gruut項目中的國際音標(IPA)音素集,支持豐富的音素表示

模型能力

語音轉音素
自動語音識別
音素級別分析

使用案例

語音處理
音素分析研究
用於語言學研究中分析語音的音素構成
可提供精確的音素級別轉錄
語音合成預處理
為語音合成系統提供音素級別的輸入
提高合成語音的準確性和自然度
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase