C

Csm 1b

由eustlb開發
CSM是由Sesame開發的1B參數語音生成模型,可通過文本和音頻輸入生成RVQ音頻編碼,支持帶上下文的語音生成。
下載量 5,144
發布時間 : 3/26/2025

模型概述

基於Llama主幹網絡和輕量級音頻解碼器的語音生成模型,可輸出Mimi音頻編碼,適用於文本轉語音任務。

模型特點

上下文感知生成
支持通過歷史對話音頻和文本作為上下文輸入,優化當前語音生成效果
高效架構設計
採用Llama主幹網絡結合輕量級解碼器,平衡生成質量與計算效率
多模態輸入
支持同時處理文本和音頻輸入,實現更自然的語音交互

模型能力

文本轉語音生成
上下文感知語音合成
多說話人語音生成

使用案例

交互式語音應用
語音助手
為對話系統提供自然語音輸出
演示案例顯示可生成帶情感語調的語音
內容創作
有聲內容生成
將文本內容自動轉換為語音
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase