S

Slam

Developed by slprl
這是一個基於離散Hubert標記的語音語言模型,專注於高效訓練,能夠生成語音片段的延續。
Downloads 115
Release Time : 2/18/2025

Model Overview

該模型是從Qwen/Qwen2.5-0.5B微調而來,基於mhubert-25hz的第11層提取的500個語音標記的詞彙表,可用於生成語音片段的延續或作為進一步調優的基礎。

Model Features

高效訓練
採用論文《Slamming》提出的方法,可在一天內用一塊GPU完成訓練。
語音標記處理
基於mhubert-25hz的第11層提取的500個語音標記的詞彙表。
DPO訓練
在SpokenSwag數據集上通過DPO進行訓練,優化生成質量。

Model Capabilities

語音片段延續生成
語音語言模型基礎調優

Use Cases

語音生成
語音故事續寫
根據給定的語音故事片段生成合理的後續內容。
可用於有聲讀物創作或語音交互應用
語音對話延續
在語音對話系統中生成自然的回應內容。
提升對話系統的自然度和連貫性
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase