SLAM开源语音语言模型 - 免费部署，高效训练生成语音片段延续

首页

Slam

由 slprl 开发

这是一个基于离散Hubert标记的语音语言模型，专注于高效训练，能够生成语音片段的延续。

音频生成

Transformers

开源协议:MIT #语音延续生成 #高效训练 #Hubert标记

下载量 115

发布时间 : 2/18/2025

模型简介

该模型是从Qwen/Qwen2.5-0.5B微调而来，基于mhubert-25hz的第11层提取的500个语音标记的词汇表，可用于生成语音片段的延续或作为进一步调优的基础。

模型特点

高效训练

采用论文《Slamming》提出的方法，可在一天内用一块GPU完成训练。

语音标记处理

基于mhubert-25hz的第11层提取的500个语音标记的词汇表。

DPO训练

在SpokenSwag数据集上通过DPO进行训练，优化生成质量。

模型能力

语音片段延续生成

语音语言模型基础调优

使用案例

语音生成

语音故事续写

根据给定的语音故事片段生成合理的后续内容。

可用于有声读物创作或语音交互应用

语音对话延续

在语音对话系统中生成自然的回应内容。

提升对话系统的自然度和连贯性

🚀 SLAM模型卡

这是一个语音语言模型，用于基于离散的 Hubert 标记生成语音续接内容。

🚀 快速开始

若要了解该模型的完整使用说明，请参考官方仓库 - github。

✨ 主要特性

这是一个语音语言模型，专注于高效训练。
可用于生成语音片段的续接内容，也可作为进一步微调的基础。

📚 详细文档

模型详情

模型描述

这是一个语音语言模型，在论文 “Slamming: Training a Speech Language Model on One GPU in a Day” 中被提出，着重于高效训练。它基于 Qwen/Qwen2.5 - 0.5B 进行微调，使用从 mhubert - 25hz 的第 11 层提取的 500 个语音标记词汇表。若想了解使用稍多计算资源（2 个 A100，训练 2 天）训练的更强版本模型，请查看 slam_scaled。

该模型通过对 LibriSpeech、Libri - Light 的一个子集以及合成数据 sTinyStories 进行下一个标记预测训练，然后在 SpokenSwag 上使用 DPO 进行训练。

开发者：SLP - RL
模型类型：SpeechLM
许可证：MIT
微调基础模型：Qwen/Qwen2.5 - 0.5B

模型来源

仓库：https://github.com/slp-rl/slamkit
论文：https://arxiv.org/abs/2502.15814
演示：https://pages.cs.huji.ac.il/adiyoss-lab/slamming/

使用场景

这是一个基础的语音语言模型，可用于生成语音片段的续接内容，也可作为进一步微调的基础。有关使用的更多详细信息，请参阅 SlamKit 代码库，并查看演示页面以获取一些生成示例。

超出适用范围的使用

该模型是在经过精心挑选的语音数据集上训练的，这些数据集主要包含有声书籍和故事，因此其输出不应被视为事实内容。

训练详情

我们强烈建议用户阅读完整的论文以了解完整的训练细节，以下是简要概述。

训练数据

该模型在预训练阶段使用了 LibriSpeech 训练集的一个子集、Libri - Light 以及合成数据集 sTinyStories 进行训练。此外，还在合成数据集 SpokenSwag 上使用 DPO 进行训练。

训练过程

该模型通过对多个数据集进行下一个标记预测训练，然后在 SpokenSwag 上使用 DPO 进行训练。完整的训练配方请参考论文或代码。

预处理

使用 Hubert - 25hz 从音频中提取语音标记，并使用 textlesslib 中与模型一起发布的官方 kmeans 进行量化。对单元进行去重处理。我们鼓励您探索官方仓库以获取完整细节 - github。

评估

论文提供了完整的评估结果，我们在此给出一些结果，并建议您参考演示页面听取一些样本。

模型	计算资源（GPU 天数）	参数数量	sBLIMP ↑	sStoryCloze ↑	tStoryCloze ↑	GenPPL ↓	Auto - BLEU ↓
TWIST - 1.3B	160xV100	1B	57.00	52.4	70.6	131.8	3.20
TWIST - 7B	?	7B	59.00	55.3	74.1	93.7	3.06
TWIST - 13B	?	13B	59.20	55.4	76.4	-	-
Scaled Optimal	?	823M	61.3	56.7	78.0	-	-
Predicted Optimal	1xA5000	78M	56.85	54.09	70.49	-	-
TWIST - 350M（原始配方）	1xA5000	305M	51.52 ± .19	53.65 ± .57	68.80 ± .47	259.2 ± 6.7	3.26 ± .46
Slam (-DPO) (我们的模型)	1xA5000	358M	56.45 ± .17	55.59 ± .30	78.01 ± .27	88.3 ± 1.0	3.47 ± .17
Slam (我们的模型)	1xA5000	358M	58.86 ± .20	58.04 ± .51	82.04 ± .21	62.8 ± 4.1	3.88 ± .11

计算基础设施

该模型是作为论文 “Slamming: Training a Speech Language Model on One GPU in a Day” 的一部分进行训练的，着重于高效训练。

硬件

该模型仅使用了一个英伟达 A5000 GPU、16 个 CPU 核心和 24 GB 的 RAM，训练时长为 24 小时。

软件

该模型使用 SlamKit 代码库进行训练，该代码库基于 🤗transformers 构建，并扩展以支持语音语言模型的轻松高效训练。

📄 许可证

本模型采用 MIT 许可证。

引用

BibTeX：

@misc{maimon2025slamming,
      title={Slamming: Training a Speech Language Model on One GPU in a Day}, 
      author={Gallil Maimon and Avishai Elmakies and Yossi Adi},
      year={2025},
      eprint={2502.15814},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2502.15814}, 
}