🚀 SLAMのモデルカード
このモデルは、離散的なHubertトークンを用いて音声の続きを生成するために訓練された音声言語モデルです。
📚 詳細ドキュメント
モデルの説明
この音声言語モデルは、論文「Slamming: Training a Speech Language Model on One GPU in a Day」で紹介された、効率的な訓練を目的としたモデルです。
このモデルは、Qwen/Qwen2.5 - 0.5Bをベースに、mhubert - 25hzの11層から抽出された500個の音声トークンの語彙でファインチューニングされています。より多くのコンピューティングリソース(2台のA100で2日間)を使って訓練された強化版のモデルについては、slam_scaledを参照してください。
このモデルは、LibriSpeech、Libri - Lightのサブセットと合成データsTinyStoriesで次のトークン予測によって訓練され、その後SpokenSwagでDPO(Direct Preference Optimization)を用いて訓練されました。
モデルのソース
- リポジトリ: [https://github.com/slp - rl/slamkit](https://github.com/slp - rl/slamkit)
- 論文: https://arxiv.org/abs/2502.15814
- デモ: [https://pages.cs.huji.ac.il/adiyoss - lab/slamming/](https://pages.cs.huji.ac.il/adiyoss - lab/slamming/)
💻 使用例
これは基本的なSpeechLMであり、音声セグメントの続きを生成するために使用できるか、さらなるチューニングのベースとして使用できます。使用方法の詳細については、_SlamKit_の[コードベース](https://github.com/slp - rl/slamkit)を参照し、生成例を見るには[デモページ](https://pages.cs.huji.ac.il/adiyoss - lab/slamming/)をチェックしてください。
想定外の使用
このモデルは主にオーディオブックや物語を含む精選された音声データセットで訓練されているため、出力をいかなる意味でも事実として扱うべきではありません。
🚀 クイックスタート
モデルの完全な使用説明については、公式リポジトリ - [github](https://github.com/slp - rl/slamkit)を参照してください。
🔧 技術詳細
完全な訓練の詳細については、ユーザーには論文を読むことを強くおすすめします。以下に簡単な概要を示します。
訓練データ
このモデルは、事前訓練フェーズでLibriSpeechの訓練サブセット、[Libri - Light](https://ai.meta.com/tools/libri - light/)、および合成データセットsTinyStoriesで訓練されました。また、合成データセットSpokenSwagでDPOを用いて訓練されました。
訓練手順
このモデルは、いくつかのデータセットで次のトークン予測によって訓練され、その後SpokenSwagでDPOを用いて訓練されました。完全な訓練レシピについては、論文または[コード](https://github.com/slp - rl/slamkit)を参照してください。
前処理
音声トークンは、[Hubert - 25hz](https://huggingface.co/slprl/mhubert - base - 25hz)を使用して音声から抽出され、textlesslibでモデルと共に公開された公式のkmeansを使用して量子化されます。単位は重複排除されます。詳細については、公式リポジトリ - [github](https://github.com/slp - rl/slamkit)を探索することをおすすめします。
📊 評価
論文には完全な結果が記載されています。ここではいくつかの結果を示し、また[デモページ](https://pages.cs.huji.ac.il/adiyoss - lab/slamming/)でいくつかのサンプルを聴くことができます。
モデル |
コンピューティング (GPU日数) |
パラメータ数 |
sBLIMP ↑ |
sStoryCloze ↑ |
tStoryCloze ↑ |
GenPPL ↓ |
Auto - BLEU ↓ |
[TWIST - 1.3B](https://pages.cs.huji.ac.il/adiyoss - lab/twist/) |
160xV100 |
1B |
57.00 |
52.4 |
70.6 |
131.8 |
3.20 |
[TWIST - 7B](https://pages.cs.huji.ac.il/adiyoss - lab/twist/) |
? |
7B |
59.00 |
55.3 |
74.1 |
93.7 |
3.06 |
[TWIST - 13B](https://pages.cs.huji.ac.il/adiyoss - lab/twist/) |
? |
13B |
59.20 |
55.4 |
76.4 |
- |
- |
Scaled Optimal |
? |
823M |
61.3 |
56.7 |
78.0 |
- |
- |
Predicted Optimal |
1xA5000 |
78M |
56.85 |
54.09 |
70.49 |
- |
- |
TWIST - 350M (Original recipe) |
1xA5000 |
305M |
51.52 ± .19 |
53.65 ± .57 |
68.80 ± .47 |
259.2 ± 6.7 |
3.26 ± .46 |
Slam (-DPO) (ours) |
1xA5000 |
358M |
56.45 ± .17 |
55.59 ± .30 |
78.01 ± .27 |
88.3 ± 1.0 |
3.47 ± .17 |
Slam (ours) |
1xA5000 |
358M |
58.86 ± .20 |
58.04 ± .51 |
82.04 ± .21 |
62.8 ± 4.1 |
3.88 ± .11 |
コンピューティングインフラストラクチャ
このモデルは、「Slamming: Training a Speech Language Model on One GPU in a Day」の一部として訓練され、効率的な訓練に焦点を当てています。
ハードウェア
このモデルは、単一のNvidia A5000 GPU、16個のCPUコア、および24GBのRAMを使用して24時間訓練されました。
ソフトウェア
モデルは、🤗transformersを拡張して音声言語モデルの簡単で効率的な訓練をサポートする[SlamKit](https://github.com/slp - rl/slamkit)コードベースを使用して訓練されました。
📄 ライセンス
このモデルはMITライセンスの下で公開されています。
📖 引用
BibTeX:
@misc{maimon2025slamming,
title={Slamming: Training a Speech Language Model on One GPU in a Day},
author={Gallil Maimon and Avishai Elmakies and Yossi Adi},
year={2025},
eprint={2502.15814},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2502.15814},
}