S

Speechless Llama3.2 V0.1

由Menlo開發
無言是一個緊湊的開源文本到語義模型(10億參數),旨在直接將音頻轉換為離散的語義標記,無需依賴傳統的文本轉語音(TTS)模型。
下載量 39
發布時間 : 12/28/2024

模型概述

無言通過直接將文本轉換為語義語音標記來消除傳統TTS→ASR流程的複雜性,簡化訓練過程,節省資源,並實現可擴展性,尤其適用於資源匱乏的語言。

模型特點

直接音頻轉語義標記
無需依賴傳統TTS模型,直接將音頻轉換為離散的語義標記。
多語言支持
支持英語和越南語,特別適合資源匱乏的語言。
高效訓練
簡化訓練流程,節省計算資源。

模型能力

音頻轉語義標記
多語言處理
高效資源利用

使用案例

語音處理
語音轉語義標記
將音頻直接轉換為語義標記,用於後續處理或分析。
詞錯誤率低至3.27(英語)和3.99(越南語)。
研究
語音模型研究
用於研究直接音頻轉語義標記的新方法。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase