C

Csm 1b

由sesame開發
CSM是Sesame開發的10億參數規模語音生成模型,可根據文本和音頻輸入生成RVQ音頻編碼
下載量 65.03k
發布時間 : 3/6/2025

模型概述

對話語音模型,採用Llama主幹網絡和輕量級音頻解碼器架構,能生成Mimi音頻編碼,適用於文本轉語音任務

模型特點

上下文感知生成
支持通過上下文音頻片段生成更自然的對話語音
多音色支持
基礎模型可生成多種音色(需配合微調實現特定音色)
高效架構
結合Llama主幹網絡與輕量級解碼器,平衡性能與效率

模型能力

文本轉語音生成
對話語音合成
多說話人語音生成

使用案例

語音交互
虛擬助手
為對話系統生成自然語音響應
演示中展示了流暢的對話交互效果
內容創作
有聲內容生成
將文本內容轉換為語音
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase