E

Emova Speech Tokenizer Hf

由Emova-ollm開發
EMOVA語音分詞器是一個支持中英文的離散語音分詞器,採用語義-聲學解耦設計,支持靈活語音風格控制。
下載量 895
發布時間 : 12/23/2024

模型概述

該模型是一個離散語音分詞器,包含語音轉單元(S2U)分詞器和單元轉語音(U2S)解碼器,能夠實現視覺、語言和語音模態間的無縫全模態對齊,並支持包括說話人、情感和音高在內的靈活語音風格控制。

模型特點

語義-聲學解耦設計
解耦輸入語音的語義內容和聲學風格,僅使用前者生成語音標記,實現與LLM高語義嵌入空間的無縫對齊
雙語分詞支持
支持使用相同語音碼本對中文和英文語音進行分詞
靈活語音風格控制
支持24種語音風格控制(2種說話人×3種音高×4種情感組合)
離散語音分詞
通過有限標量量化器(FSQ)將語音離散化為語音單元,便於後續處理

模型能力

語音轉單元(S2U)
單元轉語音(U2S)
語音風格控制
中英文語音處理

使用案例

語音合成
情感化語音合成
根據輸入文本和指定的情感參數生成帶有特定情感的語音
可生成憤怒、開心、中性、悲傷四種情感的語音
多風格語音合成
控制生成的語音在說話人、音高和語速等方面的風格
支持24種不同風格組合的語音輸出
語音處理
語音特徵提取
將語音信號轉換為離散的語音單元表示
提取的音素和音調信息可用於後續語音處理任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase