SLAM開源語音語言模型 - 免費部署，高效訓練生成語音片段延續

Home

Slam

Developed by slprl

這是一個基於離散Hubert標記的語音語言模型，專注於高效訓練，能夠生成語音片段的延續。

音頻生成

Transformers

Open Source License:MIT #語音延續生成 #高效訓練 #Hubert標記

Downloads 115

Release Time : 2/18/2025

Model Overview

該模型是從Qwen/Qwen2.5-0.5B微調而來，基於mhubert-25hz的第11層提取的500個語音標記的詞彙表，可用於生成語音片段的延續或作為進一步調優的基礎。

Model Features

高效訓練

採用論文《Slamming》提出的方法，可在一天內用一塊GPU完成訓練。

語音標記處理

基於mhubert-25hz的第11層提取的500個語音標記的詞彙表。

DPO訓練

在SpokenSwag數據集上通過DPO進行訓練，優化生成質量。

Model Capabilities

語音片段延續生成

語音語言模型基礎調優

Use Cases

語音生成

語音故事續寫

根據給定的語音故事片段生成合理的後續內容。

可用於有聲讀物創作或語音交互應用

語音對話延續

在語音對話系統中生成自然的回應內容。

提升對話系統的自然度和連貫性

🚀 SLAM模型卡

這是一個語音語言模型，用於基於離散的 Hubert 標記生成語音續接內容。

🚀 快速開始

若要了解該模型的完整使用說明，請參考官方倉庫 - github。

✨ 主要特性

這是一個語音語言模型，專注於高效訓練。
可用於生成語音片段的續接內容，也可作為進一步微調的基礎。

📚 詳細文檔

模型詳情

模型描述

這是一個語音語言模型，在論文 “Slamming: Training a Speech Language Model on One GPU in a Day” 中被提出，著重於高效訓練。它基於 Qwen/Qwen2.5 - 0.5B 進行微調，使用從 mhubert - 25hz 的第 11 層提取的 500 個語音標記詞彙表。若想了解使用稍多計算資源（2 個 A100，訓練 2 天）訓練的更強版本模型，請查看 slam_scaled。

該模型通過對 LibriSpeech、Libri - Light 的一個子集以及合成數據 sTinyStories 進行下一個標記預測訓練，然後在 SpokenSwag 上使用 DPO 進行訓練。

開發者：SLP - RL
模型類型：SpeechLM
許可證：MIT
微調基礎模型：Qwen/Qwen2.5 - 0.5B

模型來源

倉庫：https://github.com/slp-rl/slamkit
論文：https://arxiv.org/abs/2502.15814
演示：https://pages.cs.huji.ac.il/adiyoss-lab/slamming/

使用場景

這是一個基礎的語音語言模型，可用於生成語音片段的續接內容，也可作為進一步微調的基礎。有關使用的更多詳細信息，請參閱 SlamKit 代碼庫，並查看演示頁面以獲取一些生成示例。

超出適用範圍的使用

該模型是在經過精心挑選的語音數據集上訓練的，這些數據集主要包含有聲書籍和故事，因此其輸出不應被視為事實內容。

訓練詳情

我們強烈建議用戶閱讀完整的論文以瞭解完整的訓練細節，以下是簡要概述。

訓練數據

該模型在預訓練階段使用了 LibriSpeech 訓練集的一個子集、Libri - Light 以及合成數據集 sTinyStories 進行訓練。此外，還在合成數據集 SpokenSwag 上使用 DPO 進行訓練。

訓練過程

該模型通過對多個數據集進行下一個標記預測訓練，然後在 SpokenSwag 上使用 DPO 進行訓練。完整的訓練配方請參考論文或代碼。

預處理

使用 Hubert - 25hz 從音頻中提取語音標記，並使用 textlesslib 中與模型一起發佈的官方 kmeans 進行量化。對單元進行去重處理。我們鼓勵您探索官方倉庫以獲取完整細節 - github。

評估

論文提供了完整的評估結果，我們在此給出一些結果，並建議您參考演示頁面聽取一些樣本。

模型	計算資源（GPU 天數）	參數數量	sBLIMP ↑	sStoryCloze ↑	tStoryCloze ↑	GenPPL ↓	Auto - BLEU ↓
TWIST - 1.3B	160xV100	1B	57.00	52.4	70.6	131.8	3.20
TWIST - 7B	?	7B	59.00	55.3	74.1	93.7	3.06
TWIST - 13B	?	13B	59.20	55.4	76.4	-	-
Scaled Optimal	?	823M	61.3	56.7	78.0	-	-
Predicted Optimal	1xA5000	78M	56.85	54.09	70.49	-	-
TWIST - 350M（原始配方）	1xA5000	305M	51.52 ± .19	53.65 ± .57	68.80 ± .47	259.2 ± 6.7	3.26 ± .46
Slam (-DPO) (我們的模型)	1xA5000	358M	56.45 ± .17	55.59 ± .30	78.01 ± .27	88.3 ± 1.0	3.47 ± .17
Slam (我們的模型)	1xA5000	358M	58.86 ± .20	58.04 ± .51	82.04 ± .21	62.8 ± 4.1	3.88 ± .11

計算基礎設施

該模型是作為論文 “Slamming: Training a Speech Language Model on One GPU in a Day” 的一部分進行訓練的，著重於高效訓練。

硬件

該模型僅使用了一個英偉達 A5000 GPU、16 個 CPU 核心和 24 GB 的 RAM，訓練時長為 24 小時。

軟件

該模型使用 SlamKit 代碼庫進行訓練，該代碼庫基於 🤗transformers 構建，並擴展以支持語音語言模型的輕鬆高效訓練。

📄 許可證

本模型採用 MIT 許可證。

引用

BibTeX：

@misc{maimon2025slamming,
      title={Slamming: Training a Speech Language Model on One GPU in a Day}, 
      author={Gallil Maimon and Avishai Elmakies and Yossi Adi},
      year={2025},
      eprint={2502.15814},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2502.15814}, 
}