S

Slam

由slprl開發
這是一個基於離散Hubert標記的語音語言模型,專注於高效訓練,能夠生成語音片段的延續。
下載量 115
發布時間 : 2/18/2025

模型概述

該模型是從Qwen/Qwen2.5-0.5B微調而來,基於mhubert-25hz的第11層提取的500個語音標記的詞彙表,可用於生成語音片段的延續或作為進一步調優的基礎。

模型特點

高效訓練
採用論文《Slamming》提出的方法,可在一天內用一塊GPU完成訓練。
語音標記處理
基於mhubert-25hz的第11層提取的500個語音標記的詞彙表。
DPO訓練
在SpokenSwag數據集上通過DPO進行訓練,優化生成質量。

模型能力

語音片段延續生成
語音語言模型基礎調優

使用案例

語音生成
語音故事續寫
根據給定的語音故事片段生成合理的後續內容。
可用於有聲讀物創作或語音交互應用
語音對話延續
在語音對話系統中生成自然的回應內容。
提升對話系統的自然度和連貫性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase