🚀 SLAM模型卡
这是一个语音语言模型,用于基于离散的 Hubert 标记 生成语音续接内容。
🚀 快速开始
若要了解该模型的完整使用说明,请参考官方仓库 - github。
✨ 主要特性
- 这是一个语音语言模型,专注于高效训练。
- 可用于生成语音片段的续接内容,也可作为进一步微调的基础。
📚 详细文档
模型详情
模型描述
这是一个语音语言模型,在论文 “Slamming: Training a Speech Language Model on One GPU in a Day” 中被提出,着重于高效训练。它基于 Qwen/Qwen2.5 - 0.5B 进行微调,使用从 mhubert - 25hz 的第 11 层提取的 500 个语音标记词汇表。若想了解使用稍多计算资源(2 个 A100,训练 2 天)训练的更强版本模型,请查看 slam_scaled。
该模型通过对 LibriSpeech、Libri - Light 的一个子集以及合成数据 sTinyStories 进行下一个标记预测训练,然后在 SpokenSwag 上使用 DPO 进行训练。
模型来源
使用场景
这是一个基础的语音语言模型,可用于生成语音片段的续接内容,也可作为进一步微调的基础。有关使用的更多详细信息,请参阅 SlamKit 代码库,并查看 演示页面 以获取一些生成示例。
超出适用范围的使用
该模型是在经过精心挑选的语音数据集上训练的,这些数据集主要包含有声书籍和故事,因此其输出不应被视为事实内容。
训练详情
我们强烈建议用户阅读完整的 论文 以了解完整的训练细节,以下是简要概述。
训练数据
该模型在预训练阶段使用了 LibriSpeech 训练集的一个子集、Libri - Light 以及合成数据集 sTinyStories 进行训练。此外,还在合成数据集 SpokenSwag 上使用 DPO 进行训练。
训练过程
该模型通过对多个数据集进行下一个标记预测训练,然后在 SpokenSwag 上使用 DPO 进行训练。完整的训练配方请参考 论文 或 代码。
预处理
使用 Hubert - 25hz 从音频中提取语音标记,并使用 textlesslib 中与模型一起发布的官方 kmeans 进行量化。对单元进行去重处理。我们鼓励您探索官方仓库以获取完整细节 - github。
评估
论文提供了完整的评估结果,我们在此给出一些结果,并建议您参考 演示页面 听取一些样本。
模型 |
计算资源(GPU 天数) |
参数数量 |
sBLIMP ↑ |
sStoryCloze ↑ |
tStoryCloze ↑ |
GenPPL ↓ |
Auto - BLEU ↓ |
TWIST - 1.3B |
160xV100 |
1B |
57.00 |
52.4 |
70.6 |
131.8 |
3.20 |
TWIST - 7B |
? |
7B |
59.00 |
55.3 |
74.1 |
93.7 |
3.06 |
TWIST - 13B |
? |
13B |
59.20 |
55.4 |
76.4 |
- |
- |
Scaled Optimal |
? |
823M |
61.3 |
56.7 |
78.0 |
- |
- |
Predicted Optimal |
1xA5000 |
78M |
56.85 |
54.09 |
70.49 |
- |
- |
TWIST - 350M(原始配方) |
1xA5000 |
305M |
51.52 ± .19 |
53.65 ± .57 |
68.80 ± .47 |
259.2 ± 6.7 |
3.26 ± .46 |
Slam (-DPO) (我们的模型) |
1xA5000 |
358M |
56.45 ± .17 |
55.59 ± .30 |
78.01 ± .27 |
88.3 ± 1.0 |
3.47 ± .17 |
Slam (我们的模型) |
1xA5000 |
358M |
58.86 ± .20 |
58.04 ± .51 |
82.04 ± .21 |
62.8 ± 4.1 |
3.88 ± .11 |
计算基础设施
该模型是作为论文 “Slamming: Training a Speech Language Model on One GPU in a Day” 的一部分进行训练的,着重于高效训练。
硬件
该模型仅使用了一个英伟达 A5000 GPU、16 个 CPU 核心和 24 GB 的 RAM,训练时长为 24 小时。
软件
该模型使用 SlamKit 代码库进行训练,该代码库基于 🤗transformers 构建,并扩展以支持语音语言模型的轻松高效训练。
📄 许可证
本模型采用 MIT 许可证。
引用
BibTeX:
@misc{maimon2025slamming,
title={Slamming: Training a Speech Language Model on One GPU in a Day},
author={Gallil Maimon and Avishai Elmakies and Yossi Adi},
year={2025},
eprint={2502.15814},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2502.15814},
}