slam_scaledオープンソース音声言語モデル - シングルGPUで24時間トレーニング、高品質の音声インタラクション体験

ホーム

Slam Scaled

slprlによって開発

単一GPUで24時間以内にトレーニングされた高品質な音声言語モデル、Qwen2.5-0.5Bを微調整、Hubertトークンを語彙として使用

音声生成

Transformers

オープンソースライセンス:MIT #音声継続生成 #単一GPU効率的トレーニング #音声言語モデル

ダウンロード数 792

リリース時間 : 2/18/2025

モデル概要

音声セグメント生成に特化した音声言語モデル、離散音声トークンによる効率的なトレーニングと推論をサポート

モデル特徴

効率的トレーニング

学術用単一GPUで24時間以内に高品質モデルのトレーニングを完了

音声トークン処理

mhubert-25hzから抽出した500音声トークンを語彙として使用

多段階最適化

事前トレーニングとDPO選好最適化を組み合わせ、生成品質を向上

低リソース要件

A100 GPU2枚で48時間トレーニングを完了、計算コストが極めて低い

モデル能力

音声セグメント生成

音声継続予測

音声トークン処理

使用事例

音声生成

音声ストーリー継続

与えられた音声セグメントから一貫性のある続きを生成

sStoryClozeテストセットで61.30%精度を達成

音声対話システム

音声対話システムの生成コンポーネントとして

教育応用

言語学習支援

音声練習教材を生成

🚀 Slamming: 1日で1台のGPUで音声言語モデルを訓練する

このモデルは論文 Slamming: Training a Speech Language Model on One GPU in a Day で発表されました。本モデルは、1台の学術用GPUで24時間以内に高品質の音声言語モデル（SLM）を訓練する手法を提供します。

✨ 主な機能

1台のGPUで24時間以内に高品質の音声言語モデルを訓練できます。
訓練手法は計算資源が増えるにつれて良好にスケールし、少ない計算コストで最先端のSLMと同等の結果を得られます。

📦 インストール

READMEに具体的なインストール手順が記載されていないため、このセクションは省略されます。

📚 ドキュメント

論文の概要

私たちは、1台の学術用GPUで24時間以内に高品質の音声言語モデル（SLM）を訓練するレシピであるSlamを紹介します。これは、モデルの初期化とアーキテクチャ、合成訓練データ、合成データを用いた嗜好最適化、およびその他のすべての要素の調整に関する実証的な分析を通じて行われます。この訓練レシピは、より多くの計算資源を投入すると、計算コストのごく一部で主要なSLMと同等の結果を得ることができることを実証的に示しています。私たちは、これらの知見がSLMの訓練と研究をよりアクセスしやすくすることを期待しています。SLMのスケーリング則の文脈では、私たちの結果は予測された計算最適性能をはるかに上回っており、SLMの実現可能性に楽観的な見通しを与えています。コード、データ、モデル、サンプルは - https://pages.cs.huji.ac.il/adiyoss-lab/slamming で確認できます。

モデルカード

これは、離散的な Hubertトークン上で音声の続きを生成するために訓練された音声言語モデル（SLM）です。

モデルの詳細

モデルの説明：この音声言語モデルは、論文 "Slamming: Training a Speech Language Model on One GPU in a Day" で紹介されたもので、効率的な訓練に焦点を当てています。このモデルは、Qwen/Qwen2.5 - 0.5B から微調整され、mhubert - 25hz の11層から抽出された500個の音声トークンの語彙を使用しています。このモデルは、LibriSpeech、Libri - Lightのサブセットと合成データセット sTinyStories を使用して次のトークン予測で事前訓練され、その後 SpokenSwag でDPOを用いて微調整されました。
- 開発者：SLP - RL
- モデルの種類：SpeechLM
- ライセンス：MIT
- 微調整元のモデル：Qwen/Qwen2.5 - 0.5B
モデルのソース
- リポジトリ：[https://github.com/slp - rl/slamkit](https://github.com/slp - rl/slamkit)
- 論文：https://arxiv.org/abs/2502.15814
- デモ：[https://pages.cs.huji.ac.il/adiyoss - lab/slamming/](https://pages.cs.huji.ac.il/adiyoss - lab/slamming/)

モデルの用途

この基本的なSpeechLMは、音声セグメントの続きを生成するために使用できるか、さらなる微調整のベースとして使用できます。使用方法の詳細については、SlamKit [コードベース](https://github.com/slp - rl/slamkit) を参照し、生成例については [デモページ](https://pages.cs.huji.ac.il/adiyoss - lab/slamming/) を確認してください。

適用範囲外の用途：このモデルは、主にオーディオブックと物語を含む精選された音声データセットで訓練されているため、出力はいかなる意味でも事実として扱われるべきではありません。

モデルの使い始め方

ユーザーは、完全な使用説明について公式リポジトリ [github](https://github.com/slp - rl/slamkit) を参照してください。

訓練の詳細

ユーザーには、完全な訓練の詳細については論文を読むことを強くお勧めします。以下に簡単な概要を示します。

訓練データ：このモデルは、事前訓練フェーズで LibriSpeech トレーニングセットのサブセット、[Libri - Light](https://ai.meta.com/tools/libri - light/) および合成データセット sTinyStories を使用して訓練されました。また、合成データセット SpokenSwag でDPOを用いて訓練されました。
訓練手順：このモデルは、いくつかのデータセットに対して次のトークン予測で訓練され、その後 SpokenSwag でDPOを用いて訓練されました。完全な訓練レシピについては、論文または [コード](https://github.com/slp - rl/slamkit) を参照してください。
- 前処理：音声トークンは、[Hubert - 25hz](https://huggingface.co/slprl/mhubert - base - 25hz) を使用して音声から抽出され、textlesslib でモデルとともに公開された公式のkmeansを使用して量子化されます。ユニットは重複排除されます。完全な詳細については、公式リポジトリ [github](https://github.com/slp - rl/slamkit) を探索することをお勧めします。

評価

論文には完全な結果が記載されていますが、ここでいくつかの結果を示し、サンプルを聴くには [デモページ](https://pages.cs.huji.ac.il/adiyoss - lab/slamming/) を参照してください。

モデル	GPU数	パラメータ数	トークン数	sBLIMP ↑	sStoryCloze ↑	tStoryCloze ↑	GenPPL ↓	Auto - BLEU ↓
音声のみの事前訓練
GSLM	8×V100	100M	1B	54.2	53.3	66.6	—	—
SyllableLM	4×A40	300M	16B	63.7	—	75.4	—	—
TWIST - 350M	8×V100	305M	10.8B	56.2	—	—	137.3	3.46
TWIST - 1.3B	32×V100	1B	10.8B	57.0	52.4	70.6	131.8	3.20
TWIST - 7B	32×V100	7B	36B	59.0	55.3	74.1	93.74	3.06
TWIST - 13B	32×V100	13B	36B	59.2	55.4	76.4	—	—
Scaled Optimal	—	823M	82B	61.3	56.7	78.0	—	—
Moshi	?×H100	7B	?	58.9	58.7	81.8	—	—
SpiritLM	64×A100	7B	100B	58.0	54.8	72.9	—	—
テキスト/嗜好最適化を伴う
Scaling Interleaving	—	9B	~1T	—	62.4	82.9	—	—
Moshi	?×H100	7B	~720B	58.8	60.8	83.0	—	—
SpiritLM	64×A100	7B	100B	58.3	61.0	82.9	—	—
AlignSLM - 1.3B	64×A100	1B	10.8B + ~158B	59.8	55.0	80.0	—	—
AlignSLM - 7B	64×A100	7B	36B + ~158B	62.3	61.1	86.8	—	—
*私たちのモデル (Slam)*
Slam (-DPO)	2×A100	358M	16.7B	58.53	58.15	80.71	67.3	3.25
Slam	1×A5000	358M	1.4B + 5M	58.86	58.04	82.04	62.8	3.88
Slam (scaled)	2×A100	358M	16.7B + 9M	61.11	61.30	84.18	46.6	3.75

計算インフラストラクチャ

このモデルは、論文 "Slamming: Training a Speech Language Model on One GPU in a Day" の一部として訓練され、効率的な訓練に焦点を当てています。

ハードウェア：このモデルは、2台のNvidia A100 GPUのみを使用して48時間訓練されました。
ソフトウェア：このモデルは、[SlamKit](https://github.com/slp - rl/slamkit) コードベースを使用して訓練されました。このコードベースは 🤗transformers を拡張し、音声言語モデルの簡単で効率的な訓練をサポートしています。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

引用

BibTeX:

@misc{maimon2025slamming,
      title={Slamming: Training a Speech Language Model on One GPU in a Day}, 
      author={Gallil Maimon and Avishai Elmakies and Yossi Adi},
      year={2025},
      eprint={2502.15814},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2502.15814}, 
}