SLAMオープンソース音声言語モデル - 無料でデプロイ可能、効率的なトレーニングで音声クリップの生成と続きを実現

ホーム

Slam

slprlによって開発

これは離散Hubertトークンに基づく音声言語モデルで、効率的なトレーニングに焦点を当て、音声セグメントの継続を生成できます。

音声生成

Transformers

オープンソースライセンス:MIT #音声継続生成 #効率的なトレーニング #Hubertトークン

ダウンロード数 115

リリース時間 : 2/18/2025

モデル概要

このモデルはQwen/Qwen2.5-0.5Bからファインチューニングされたもので、mhubert-25hzの第11層から抽出された500の音声トークンの語彙に基づいており、音声セグメントの継続生成やさらなるチューニングの基礎として使用できます。

モデル特徴

効率的なトレーニング

論文『Slamming』で提案された方法を採用し、1枚のGPUで1日以内にトレーニングを完了できます。

音声トークン処理

mhubert-25hzの第11層から抽出された500の音声トークンの語彙に基づいています。

DPOトレーニング

SpokenSwagデータセットでDPOを使用してトレーニングされ、生成品質を最適化しています。

モデル能力

音声セグメント継続生成

音声言語モデルの基本チューニング

使用事例

音声生成

音声ストーリー継続

与えられた音声ストーリーセグメントから合理的な続きを生成します。

オーディオブック制作や音声インタラクションアプリケーションに使用可能

音声対話継続

音声対話システムで自然な応答内容を生成します。

対話システムの自然さと一貫性を向上

🚀 SLAMのモデルカード

このモデルは、離散的なHubertトークンを用いて音声の続きを生成するために訓練された音声言語モデルです。

📚 詳細ドキュメント

モデルの説明

この音声言語モデルは、論文「Slamming: Training a Speech Language Model on One GPU in a Day」で紹介された、効率的な訓練を目的としたモデルです。このモデルは、Qwen/Qwen2.5 - 0.5Bをベースに、mhubert - 25hzの11層から抽出された500個の音声トークンの語彙でファインチューニングされています。より多くのコンピューティングリソース（2台のA100で2日間）を使って訓練された強化版のモデルについては、slam_scaledを参照してください。

このモデルは、LibriSpeech、Libri - Lightのサブセットと合成データsTinyStoriesで次のトークン予測によって訓練され、その後SpokenSwagでDPO（Direct Preference Optimization）を用いて訓練されました。

開発者: SLP - RL
モデルタイプ: SpeechLM
ライセンス: MIT
ファインチューニング元のモデル: Qwen/Qwen2.5 - 0.5B

モデルのソース

リポジトリ: [https://github.com/slp - rl/slamkit](https://github.com/slp - rl/slamkit)
論文: https://arxiv.org/abs/2502.15814
デモ: [https://pages.cs.huji.ac.il/adiyoss - lab/slamming/](https://pages.cs.huji.ac.il/adiyoss - lab/slamming/)

💻 使用例

これは基本的なSpeechLMであり、音声セグメントの続きを生成するために使用できるか、さらなるチューニングのベースとして使用できます。使用方法の詳細については、_SlamKit_の[コードベース](https://github.com/slp - rl/slamkit)を参照し、生成例を見るには[デモページ](https://pages.cs.huji.ac.il/adiyoss - lab/slamming/)をチェックしてください。

想定外の使用

このモデルは主にオーディオブックや物語を含む精選された音声データセットで訓練されているため、出力をいかなる意味でも事実として扱うべきではありません。

🚀 クイックスタート

モデルの完全な使用説明については、公式リポジトリ - [github](https://github.com/slp - rl/slamkit)を参照してください。

🔧 技術詳細

完全な訓練の詳細については、ユーザーには論文を読むことを強くおすすめします。以下に簡単な概要を示します。

訓練データ

このモデルは、事前訓練フェーズでLibriSpeechの訓練サブセット、[Libri - Light](https://ai.meta.com/tools/libri - light/)、および合成データセットsTinyStoriesで訓練されました。また、合成データセットSpokenSwagでDPOを用いて訓練されました。

訓練手順

このモデルは、いくつかのデータセットで次のトークン予測によって訓練され、その後SpokenSwagでDPOを用いて訓練されました。完全な訓練レシピについては、論文または[コード](https://github.com/slp - rl/slamkit)を参照してください。

前処理

音声トークンは、[Hubert - 25hz](https://huggingface.co/slprl/mhubert - base - 25hz)を使用して音声から抽出され、textlesslibでモデルと共に公開された公式のkmeansを使用して量子化されます。単位は重複排除されます。詳細については、公式リポジトリ - [github](https://github.com/slp - rl/slamkit)を探索することをおすすめします。

📊 評価

論文には完全な結果が記載されています。ここではいくつかの結果を示し、また[デモページ](https://pages.cs.huji.ac.il/adiyoss - lab/slamming/)でいくつかのサンプルを聴くことができます。

モデル	コンピューティング (GPU日数)	パラメータ数	sBLIMP ↑	sStoryCloze ↑	tStoryCloze ↑	GenPPL ↓	Auto - BLEU ↓
[TWIST - 1.3B](https://pages.cs.huji.ac.il/adiyoss - lab/twist/)	160xV100	1B	57.00	52.4	70.6	131.8	3.20
[TWIST - 7B](https://pages.cs.huji.ac.il/adiyoss - lab/twist/)	?	7B	59.00	55.3	74.1	93.7	3.06
[TWIST - 13B](https://pages.cs.huji.ac.il/adiyoss - lab/twist/)	?	13B	59.20	55.4	76.4	-	-
Scaled Optimal	?	823M	61.3	56.7	78.0	-	-
Predicted Optimal	1xA5000	78M	56.85	54.09	70.49	-	-
TWIST - 350M (Original recipe)	1xA5000	305M	51.52 ± .19	53.65 ± .57	68.80 ± .47	259.2 ± 6.7	3.26 ± .46
Slam (-DPO) (ours)	1xA5000	358M	56.45 ± .17	55.59 ± .30	78.01 ± .27	88.3 ± 1.0	3.47 ± .17
Slam (ours)	1xA5000	358M	58.86 ± .20	58.04 ± .51	82.04 ± .21	62.8 ± 4.1	3.88 ± .11

コンピューティングインフラストラクチャ

このモデルは、「Slamming: Training a Speech Language Model on One GPU in a Day」の一部として訓練され、効率的な訓練に焦点を当てています。

ハードウェア

このモデルは、単一のNvidia A5000 GPU、16個のCPUコア、および24GBのRAMを使用して24時間訓練されました。

ソフトウェア

モデルは、🤗transformersを拡張して音声言語モデルの簡単で効率的な訓練をサポートする[SlamKit](https://github.com/slp - rl/slamkit)コードベースを使用して訓練されました。

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

📖 引用

BibTeX:

@misc{maimon2025slamming,
      title={Slamming: Training a Speech Language Model on One GPU in a Day}, 
      author={Gallil Maimon and Avishai Elmakies and Yossi Adi},
      year={2025},
      eprint={2502.15814},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2502.15814}, 
}