C

Csm 1b Hf

由thomasgauthier開發
芝麻科技會話語音模型(CSM)的Hugging Face實現版本,支持文本轉語音和語音克隆任務
下載量 3,974
發布時間 : 3/26/2025

模型概述

這是芝麻科技CSM 1B模型的Hugging Face兼容版本,完全重寫了官方實現,支持與Hugging Face生態系統的全面集成,包括推理和訓練流程。

模型特點

Hugging Face兼容
完全重寫實現以兼容Hugging Face生態系統,支持transformers庫的所有功能
兩階段自迴歸架構
採用幀間處理和幀內處理的雙階段設計,有效建模長距離依賴關係
計算攤銷訓練
採用解碼器訓練攤銷技術,僅訓練部分幀的1-31碼本,提高訓練效率
多模態輸入支持
支持處理交錯的文本和音頻輸入數據

模型能力

文本轉語音合成
語音克隆
多碼本音頻標記化
長距離語音建模

使用案例

語音合成
個性化語音助手
為虛擬助手生成自然的人聲響應
可生成帶有特定說話者特徵的語音
語音內容創作
將文本內容自動轉換為語音
支持高質量語音輸出
語音克隆
個性化語音克隆
基於少量樣本克隆特定說話者的聲音特徵
示例顯示可成功克隆說話者聲音
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase