S

Slam Scaled

由slprl開發
在單塊GPU上24小時內訓練出的高質量語音語言模型,基於Qwen2.5-0.5B微調,使用Hubert標記作為詞彙表
下載量 792
發布時間 : 2/18/2025

模型概述

專注於語音片段生成的語音語言模型,支持通過離散語音標記進行高效訓練和推理

模型特點

高效訓練
僅需單塊學術級GPU在24小時內完成高質量模型訓練
語音標記處理
使用mhubert-25hz提取的500個語音標記作為詞彙表
多階段優化
結合預訓練和DPO偏好優化,提升生成質量
低資源需求
僅需2塊A100 GPU完成48小時訓練,計算成本極低

模型能力

語音片段生成
語音延續預測
語音標記處理

使用案例

語音生成
語音故事續寫
根據給定語音片段生成連貫的後續內容
在sStoryCloze測試集上達到61.30%準確率
語音交互系統
作為語音對話系統的生成組件
教育應用
語言學習輔助
生成語音練習材料
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase