🚀 SLAM模型卡
這是一個語音語言模型,用於基於離散的 Hubert 標記 生成語音續接內容。
🚀 快速開始
若要了解該模型的完整使用說明,請參考官方倉庫 - github。
✨ 主要特性
- 這是一個語音語言模型,專注於高效訓練。
- 可用於生成語音片段的續接內容,也可作為進一步微調的基礎。
📚 詳細文檔
模型詳情
模型描述
這是一個語音語言模型,在論文 “Slamming: Training a Speech Language Model on One GPU in a Day” 中被提出,著重於高效訓練。它基於 Qwen/Qwen2.5 - 0.5B 進行微調,使用從 mhubert - 25hz 的第 11 層提取的 500 個語音標記詞彙表。若想了解使用稍多計算資源(2 個 A100,訓練 2 天)訓練的更強版本模型,請查看 slam_scaled。
該模型通過對 LibriSpeech、Libri - Light 的一個子集以及合成數據 sTinyStories 進行下一個標記預測訓練,然後在 SpokenSwag 上使用 DPO 進行訓練。
模型來源
使用場景
這是一個基礎的語音語言模型,可用於生成語音片段的續接內容,也可作為進一步微調的基礎。有關使用的更多詳細信息,請參閱 SlamKit 代碼庫,並查看 演示頁面 以獲取一些生成示例。
超出適用範圍的使用
該模型是在經過精心挑選的語音數據集上訓練的,這些數據集主要包含有聲書籍和故事,因此其輸出不應被視為事實內容。
訓練詳情
我們強烈建議用戶閱讀完整的 論文 以瞭解完整的訓練細節,以下是簡要概述。
訓練數據
該模型在預訓練階段使用了 LibriSpeech 訓練集的一個子集、Libri - Light 以及合成數據集 sTinyStories 進行訓練。此外,還在合成數據集 SpokenSwag 上使用 DPO 進行訓練。
訓練過程
該模型通過對多個數據集進行下一個標記預測訓練,然後在 SpokenSwag 上使用 DPO 進行訓練。完整的訓練配方請參考 論文 或 代碼。
預處理
使用 Hubert - 25hz 從音頻中提取語音標記,並使用 textlesslib 中與模型一起發佈的官方 kmeans 進行量化。對單元進行去重處理。我們鼓勵您探索官方倉庫以獲取完整細節 - github。
評估
論文提供了完整的評估結果,我們在此給出一些結果,並建議您參考 演示頁面 聽取一些樣本。
模型 |
計算資源(GPU 天數) |
參數數量 |
sBLIMP ↑ |
sStoryCloze ↑ |
tStoryCloze ↑ |
GenPPL ↓ |
Auto - BLEU ↓ |
TWIST - 1.3B |
160xV100 |
1B |
57.00 |
52.4 |
70.6 |
131.8 |
3.20 |
TWIST - 7B |
? |
7B |
59.00 |
55.3 |
74.1 |
93.7 |
3.06 |
TWIST - 13B |
? |
13B |
59.20 |
55.4 |
76.4 |
- |
- |
Scaled Optimal |
? |
823M |
61.3 |
56.7 |
78.0 |
- |
- |
Predicted Optimal |
1xA5000 |
78M |
56.85 |
54.09 |
70.49 |
- |
- |
TWIST - 350M(原始配方) |
1xA5000 |
305M |
51.52 ± .19 |
53.65 ± .57 |
68.80 ± .47 |
259.2 ± 6.7 |
3.26 ± .46 |
Slam (-DPO) (我們的模型) |
1xA5000 |
358M |
56.45 ± .17 |
55.59 ± .30 |
78.01 ± .27 |
88.3 ± 1.0 |
3.47 ± .17 |
Slam (我們的模型) |
1xA5000 |
358M |
58.86 ± .20 |
58.04 ± .51 |
82.04 ± .21 |
62.8 ± 4.1 |
3.88 ± .11 |
計算基礎設施
該模型是作為論文 “Slamming: Training a Speech Language Model on One GPU in a Day” 的一部分進行訓練的,著重於高效訓練。
硬件
該模型僅使用了一個英偉達 A5000 GPU、16 個 CPU 核心和 24 GB 的 RAM,訓練時長為 24 小時。
軟件
該模型使用 SlamKit 代碼庫進行訓練,該代碼庫基於 🤗transformers 構建,並擴展以支持語音語言模型的輕鬆高效訓練。
📄 許可證
本模型採用 MIT 許可證。
引用
BibTeX:
@misc{maimon2025slamming,
title={Slamming: Training a Speech Language Model on One GPU in a Day},
author={Gallil Maimon and Avishai Elmakies and Yossi Adi},
year={2025},
eprint={2502.15814},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2502.15814},
}