C

Csm 1b Safetensors Fp16

由lunahr開發
CSM(對話語音模型)是由Sesame開發的10億參數語音生成模型,可通過文本和音頻輸入生成RVQ音頻編碼。
下載量 79
發布時間 : 4/25/2025

模型概述

該模型採用Llama主幹網絡和輕量級音頻解碼器,可生成Mimi音頻編碼,適用於文本轉語音任務。

模型特點

多說話人支持
模型支持指定不同說話人ID,可生成不同音色的語音
上下文感知
能夠利用對話上下文生成更自然的語音輸出
高效架構
基於Llama主幹網絡和輕量級解碼器,平衡性能與效率

模型能力

文本轉語音
多說話人語音生成
上下文感知語音合成

使用案例

交互式語音應用
語音助手
為虛擬助手提供自然語音輸出
在Sesame的交互式語音演示中展示
對話系統
生成連貫的對話語音
能夠根據上下文調整語音風格
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase