C

Csm 1b

由unsloth開發
CSM(對話語音模型)是Sesame開發的1B參數語音生成模型,可從文本和音頻輸入生成RVQ音頻編碼。
下載量 2,667
發布時間 : 5/15/2025

模型概述

CSM是基於Llama主幹網絡和輕量級音頻解碼器的語音生成模型,可生成Mimi音頻編碼。經過微調的CSM變體支持交互式語音演示。

模型特點

高效性能
使用Unsloth運行時提速1.5倍,內存減少58%
上下文感知
支持通過上下文音頻片段提升生成質量
多說話人支持
可通過speaker參數控制不同說話人音色

模型能力

文本轉語音生成
多說話人語音合成
上下文感知語音生成

使用案例

語音交互
對話式語音助手
結合LLM生成文本後轉換為自然語音
實現更自然的語音交互體驗
內容創作
有聲內容生成
將文本內容轉換為語音
快速生成播客、有聲書等內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase