🚀 Slamming: 1日で1台のGPUで音声言語モデルを訓練する
このモデルは論文 Slamming: Training a Speech Language Model on One GPU in a Day で発表されました。本モデルは、1台の学術用GPUで24時間以内に高品質の音声言語モデル(SLM)を訓練する手法を提供します。
✨ 主な機能
- 1台のGPUで24時間以内に高品質の音声言語モデルを訓練できます。
- 訓練手法は計算資源が増えるにつれて良好にスケールし、少ない計算コストで最先端のSLMと同等の結果を得られます。
📦 インストール
READMEに具体的なインストール手順が記載されていないため、このセクションは省略されます。
📚 ドキュメント
論文の概要
私たちは、1台の学術用GPUで24時間以内に高品質の音声言語モデル(SLM)を訓練するレシピであるSlamを紹介します。これは、モデルの初期化とアーキテクチャ、合成訓練データ、合成データを用いた嗜好最適化、およびその他のすべての要素の調整に関する実証的な分析を通じて行われます。この訓練レシピは、より多くの計算資源を投入すると、計算コストのごく一部で主要なSLMと同等の結果を得ることができることを実証的に示しています。私たちは、これらの知見がSLMの訓練と研究をよりアクセスしやすくすることを期待しています。SLMのスケーリング則の文脈では、私たちの結果は予測された計算最適性能をはるかに上回っており、SLMの実現可能性に楽観的な見通しを与えています。コード、データ、モデル、サンプルは - https://pages.cs.huji.ac.il/adiyoss-lab/slamming で確認できます。
モデルカード
これは、離散的な Hubertトークン 上で音声の続きを生成するために訓練された音声言語モデル(SLM)です。
モデルの詳細
モデルの用途
この基本的なSpeechLMは、音声セグメントの続きを生成するために使用できるか、さらなる微調整のベースとして使用できます。使用方法の詳細については、SlamKit [コードベース](https://github.com/slp - rl/slamkit) を参照し、生成例については [デモページ](https://pages.cs.huji.ac.il/adiyoss - lab/slamming/) を確認してください。
- 適用範囲外の用途:このモデルは、主にオーディオブックと物語を含む精選された音声データセットで訓練されているため、出力はいかなる意味でも事実として扱われるべきではありません。
モデルの使い始め方
ユーザーは、完全な使用説明について公式リポジトリ [github](https://github.com/slp - rl/slamkit) を参照してください。
訓練の詳細
ユーザーには、完全な訓練の詳細については 論文 を読むことを強くお勧めします。以下に簡単な概要を示します。
- 訓練データ:このモデルは、事前訓練フェーズで LibriSpeech トレーニングセットのサブセット、[Libri - Light](https://ai.meta.com/tools/libri - light/) および合成データセット sTinyStories を使用して訓練されました。また、合成データセット SpokenSwag でDPOを用いて訓練されました。
- 訓練手順:このモデルは、いくつかのデータセットに対して次のトークン予測で訓練され、その後 SpokenSwag でDPOを用いて訓練されました。完全な訓練レシピについては、論文 または [コード](https://github.com/slp - rl/slamkit) を参照してください。
- 前処理:音声トークンは、[Hubert - 25hz](https://huggingface.co/slprl/mhubert - base - 25hz) を使用して音声から抽出され、textlesslib でモデルとともに公開された公式のkmeansを使用して量子化されます。ユニットは重複排除されます。完全な詳細については、公式リポジトリ [github](https://github.com/slp - rl/slamkit) を探索することをお勧めします。
評価
論文には完全な結果が記載されていますが、ここでいくつかの結果を示し、サンプルを聴くには [デモページ](https://pages.cs.huji.ac.il/adiyoss - lab/slamming/) を参照してください。
モデル |
GPU数 |
パラメータ数 |
トークン数 |
sBLIMP ↑ |
sStoryCloze ↑ |
tStoryCloze ↑ |
GenPPL ↓ |
Auto - BLEU ↓ |
音声のみの事前訓練 |
|
|
|
|
|
|
|
|
GSLM |
8×V100 |
100M |
1B |
54.2 |
53.3 |
66.6 |
— |
— |
SyllableLM |
4×A40 |
300M |
16B |
63.7 |
— |
75.4 |
— |
— |
TWIST - 350M |
8×V100 |
305M |
10.8B |
56.2 |
— |
— |
137.3 |
3.46 |
TWIST - 1.3B |
32×V100 |
1B |
10.8B |
57.0 |
52.4 |
70.6 |
131.8 |
3.20 |
TWIST - 7B |
32×V100 |
7B |
36B |
59.0 |
55.3 |
74.1 |
93.74 |
3.06 |
TWIST - 13B |
32×V100 |
13B |
36B |
59.2 |
55.4 |
76.4 |
— |
— |
Scaled Optimal |
— |
823M |
82B |
61.3 |
56.7 |
78.0 |
— |
— |
Moshi |
?×H100 |
7B |
? |
58.9 |
58.7 |
81.8 |
— |
— |
SpiritLM |
64×A100 |
7B |
100B |
58.0 |
54.8 |
72.9 |
— |
— |
テキスト/嗜好最適化を伴う |
|
|
|
|
|
|
|
|
Scaling Interleaving |
— |
9B |
~1T |
— |
62.4 |
82.9 |
— |
— |
Moshi |
?×H100 |
7B |
~720B |
58.8 |
60.8 |
83.0 |
— |
— |
SpiritLM |
64×A100 |
7B |
100B |
58.3 |
61.0 |
82.9 |
— |
— |
AlignSLM - 1.3B |
64×A100 |
1B |
10.8B + ~158B |
59.8 |
55.0 |
80.0 |
— |
— |
AlignSLM - 7B |
64×A100 |
7B |
36B + ~158B |
62.3 |
61.1 |
86.8 |
— |
— |
私たちのモデル (Slam) |
|
|
|
|
|
|
|
|
Slam (-DPO) |
2×A100 |
358M |
16.7B |
58.53 |
58.15 |
80.71 |
67.3 |
3.25 |
Slam |
1×A5000 |
358M |
1.4B + 5M |
58.86 |
58.04 |
82.04 |
62.8 |
3.88 |
Slam (scaled) |
2×A100 |
358M |
16.7B + 9M |
61.11 |
61.30 |
84.18 |
46.6 |
3.75 |
計算インフラストラクチャ
このモデルは、論文 "Slamming: Training a Speech Language Model on One GPU in a Day" の一部として訓練され、効率的な訓練に焦点を当てています。
- ハードウェア:このモデルは、2台のNvidia A100 GPUのみを使用して48時間訓練されました。
- ソフトウェア:このモデルは、[SlamKit](https://github.com/slp - rl/slamkit) コードベースを使用して訓練されました。このコードベースは 🤗transformers を拡張し、音声言語モデルの簡単で効率的な訓練をサポートしています。
📄 ライセンス
このモデルはMITライセンスの下で提供されています。
引用
BibTeX:
@misc{maimon2025slamming,
title={Slamming: Training a Speech Language Model on One GPU in a Day},
author={Gallil Maimon and Avishai Elmakies and Yossi Adi},
year={2025},
eprint={2502.15814},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2502.15814},
}