C

Csm 1b Safetensors Quants

由lunahr開發
CSM(對話語音模型)是Sesame開發的10億參數語音生成模型,可通過文本和音頻輸入生成RVQ音頻編碼。
下載量 37
發布時間 : 3/15/2025

模型概述

基於Llama主幹網絡和輕量級音頻解碼器的語音生成模型,支持文本轉語音功能,輸出Mimi音頻編碼。

模型特點

多說話人支持
可通過speaker參數控制不同說話人音色
上下文感知生成
支持通過上下文音頻片段增強生成效果
安全張量格式
支持多種安全張量格式並統計下載量

模型能力

文本轉語音
多說話人語音生成
上下文感知語音合成

使用案例

語音交互
對話系統語音輸出
與LLM結合構建完整對話系統
交互式語音演示已在博客展示
內容創作
有聲內容生成
自動生成播客、有聲書等語音內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase