オープンソースSIMS-7B音声言語モデル - 音声とテキストの交互トレーニングとクロスモーダル生成をサポート

ホーム

SIMS 7B

slprlによって開発

Qwen2.5-7Bを拡張した音声言語モデルで、音声-テキスト交互訓練とクロスモーダル生成をサポート

テキスト生成オーディオ

Transformers

英語オープンソースライセンス:MIT #音声-テキスト交互訓練 #マルチモーダル生成 #効率的な拡張

ダウンロード数 51

リリース時間 : 3/31/2025

モデル概要

このモデルはQwen2.5-7Bの語彙を拡張して微調整を実現し、500個の音声トークンを追加、交互式音声-テキストSLMの拡張性研究に焦点を当て、音声フラグメントの継続生成やクロスモーダル生成に使用可能

モデル特徴

効率的な拡張性

純粋な音声SLMと比較して計算リソース利用効率が高く、拡張動力学特性が本質的に異なる

クロスモーダル生成

音声プロンプトに基づくテキスト継続生成、または音声-テキストプロンプトに基づく音声継続生成をサポート

知識転移

音声-テキスト交互訓練方式で事前訓練済みテキスト言語モデルから初期化し、知識転移を実現

モデル能力

音声フラグメント継続生成

音声からテキストへのクロスモーダル生成

音声-テキスト交互処理

使用事例

音声生成

音声継続生成

入力された音声フラグメントに基づき自然な音声継続を生成

音声意味指標において主流モデルと同等の性能

クロスモーダル応用

音声からテキスト生成

音声プロンプトに基づき関連するテキスト内容を生成

🚀 音声-テキスト言語モデルのスケーリング分析

このモデルは論文 Scaling Analysis of Interleaved Speech-Text Language Models で発表されました。

📚 論文の概要

既存の音声言語モデル（SLM）のスケーリング分析は、あまり明るい見通しを描いていません。これらの分析によると、SLMはテキストモデルと比較して、はるかに多くの計算資源とデータを必要とすると予測されており、高品質なSLMのトレーニングの実現可能性に疑問を投げかける人もいます。しかし、現代のSLMはしばしば、音声とテキストを交互に入力することで事前学習されたテキスト言語モデル（TextLM）から初期化され、知識の移行を可能にしています。これにより、「交互型SLMはテキストなしのSLMよりも効率的にスケーリングするのか？」という疑問が生まれます。本論文では、この疑問に大きく肯定的な答えを与えます！数十個の交互型SLMをトレーニングし、スケーリング傾向を分析することで、交互型SLMのスケーリング分析を行いました。この設定では、SLMが計算資源に対してより効率的にスケーリングすることがわかりました。さらに、我々の結果は、スケーリングダイナミクスがテキストなしのSLMとは大きく異なることを示しており、モデルサイズの増加に対して、トレーニングトークンよりも計算予算を大幅に多く割り当てるべきであることを示唆しています。また、合成データとTextLMモデルファミリーがこの潜在能力を引き出す上で果たす役割についても研究しました。結果から、我々の拡張モデルは、他のアプローチよりも少ない計算資源とデータを使用しながら、音声意味メトリクスにおいて主要なモデルと同等の性能を達成していることが示されています。

📄 モデルカード

これは、音声 - テキストのプロンプトを与えられた離散的な Hubertトークン上で音声またはテキストの続きを生成するためにトレーニングされた音声言語モデル（SLM）です。

🔧 モデルの詳細

モデルの説明

この音声言語モデルは、論文 "Scaling Analysis of Interleaved Speech-Text Language Models" で紹介され、交互型音声 - テキストSLMのスケーリング分析に焦点を当てています。このモデルは、Qwen/Qwen2.5-7B から微調整され、mhubert-25hz の11層から抽出された500個の音声トークンを語彙に追加しています。

プロパティ	詳細
開発者	SLP-RL
モデルタイプ	SpeechLM
ライセンス	MIT
微調整元のモデル	Qwen/Qwen2.5-7B

モデルのソース

リポジトリ: https://github.com/slp-rl/slamkit
論文: https://arxiv.org/abs/2504.02398
デモ: https://pages.cs.huji.ac.il/adiyoss-lab/sims/

💻 使用方法

この基本的な音声言語モデルは、音声セグメントの続きを生成するために使用できます。また、クロスモーダルなタスク、例えば音声プロンプトに対するテキストの続きを生成するためにも使用でき、さらなる微調整のベースとしても利用できます。使用方法の詳細については、SlamKit コードベースを参照してください。また、生成例を見るにはデモページをチェックしてください。

適用範囲外の使用

このモデルは多様な音声データセットでトレーニングされているため、出力をいかなる意味でも事実として扱うべきではありません。

🚀 モデルの使い始め方

ユーザーは、完全な使用説明について公式リポジトリ - github を参照してください。

🔧 トレーニングの詳細

完全なトレーニングの詳細については、ユーザーには全文の論文を読むことを強くお勧めします。

コンピューティングインフラストラクチャ

ハードウェア

このモデルは、8台のNvidia H100 GPUを使用してトレーニングされました。

ソフトウェア

このモデルは、SlamKit コードベースを使用してトレーニングされました。このコードベースは 🤗transformers を拡張して、音声言語モデルの簡単かつ効率的なトレーニングをサポートしています。

📖 引用

BibTeX:

@misc{maimon2025scaling,
      title={Scaling Analysis of Interleaved Speech-Text Language Models}, 
      author={Gallil Maimon and Michael Hassid and Amit Roth and Yossi Adi},
      year={2025},
      eprint={2504.02398},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2504.02398}, 
}