SIMS-Llama3.2-3Bオープンソース音声言語モデル - 音声とテキスト生成タスクをサポート

ホーム

SIMS Llama3.2 3B

slprlによって開発

このモデルはLlama-3.2-3Bをファインチューニングした音声言語モデルで、交互音声-テキストSLMの拡張性分析に特化し、音声とテキストの生成タスクをサポートします。

テキスト生成オーディオ

Transformers

英語#音声-テキスト交互生成 #マルチモーダル言語モデル #効率的な計算拡張

ダウンロード数 54

リリース時間 : 4/2/2025

モデル概要

これは音声言語モデル（SLM）で、与えられた音声-テキストプロンプトに基づき、離散的なHubertトークンから音声またはテキストの継続を生成します。

モデル特徴

効率的な拡張性

交互音声-テキスト初期化により、純粋な音声SLMと比べて計算拡張効率が大幅に向上しました。

知識転移

事前学習済みテキスト言語モデル（TextLM）からの初期化により、知識転移を実現し、モデル性能を向上させました。

マルチモーダルサポート

音声とテキストの生成タスクをサポートし、音声プロンプトからテキスト継続を生成するなどのクロスモーダルタスクを処理できます。

モデル能力

音声生成

テキスト生成

クロスモーダルタスク処理

使用事例

音声生成

音声フラグメント継続

与えられた音声プロンプトに基づいて音声フラグメントの継続を生成します。

クロスモーダルタスク

音声からテキスト生成

音声プロンプトに基づいてテキストの継続を生成します。

🚀 音声-テキスト言語モデルの拡張分析

このモデルは論文 Scaling Analysis of Interleaved Speech-Text Language Models で発表されました。本モデルは、音声とテキストを組み合わせた言語モデルの拡張性を分析するために開発され、既存の音声言語モデルに比べて、計算リソースとデータを効率的に利用することができます。

📚 論文の概要

既存の音声言語モデル（SLM）の拡張分析は、あまり明るい見通しを示していません。これらの分析によると、SLMはテキストベースの言語モデルに比べて、はるかに多くの計算リソースとデータを必要とすると予測されており、高品質なSLMのトレーニングの実現可能性が疑問視されています。しかし、現代のSLMは、音声とテキストを交互に入力することで事前学習されたテキスト言語モデル（TextLM）から初期化されることが多く、知識の移行を可能にしています。これにより、新たな疑問が生まれます。すなわち、「交互入力型のSLMは、テキストを使用しないSLMよりも効率的に拡張できるのか？」という問いです。本論文では、この問いに明確な肯定的な回答を与えています。数十個のモデルをトレーニングし、拡張傾向を分析することで、交互入力型のSLMの拡張分析を行っています。その結果、この設定では、SLMが計算リソースに対してより効率的に拡張することがわかりました。さらに、拡張のダイナミクスが、テキストを使用しないSLMとは大きく異なることが示されており、モデルサイズの増加に対して、トレーニングトークンよりも計算予算を多く割り当てるべきであることが示唆されています。また、合成データとTextLMモデルファミリーが、この潜在能力を引き出す上で果たす役割についても研究しています。結果から、拡張されたモデルは、音声の意味的な指標において、他のアプローチよりも少ない計算リソースとデータを使用しながら、主要なモデルと同等の性能を達成していることがわかります。

📚 モデルカード

これは、音声 - テキストのプロンプトを与えられた離散的な Hubertトークン上で、音声またはテキストの続きを生成するためにトレーニングされた音声言語モデル（SLM）です。

🔧 モデルの詳細

モデルの説明

この音声言語モデルは、論文 "Scaling Analysis of Interleaved Speech-Text Language Models" で紹介されたもので、交互入力型の音声 - テキストSLMの拡張分析に焦点を当てています。このモデルは、meta-llama/Llama-3.2-3B から微調整され、mhubert-25hz の11層から抽出された500個の音声トークンを語彙に追加しています。

属性	詳情
開発者	SLP-RL
モデルタイプ	SpeechLM
ライセンス	Llama3.2ライセンス
微調整元のモデル	meta-llama/Llama-3.2-3B

モデルのソース

リポジトリ：https://github.com/slp-rl/slamkit
論文：https://arxiv.org/abs/2504.02398
デモ：https://pages.cs.huji.ac.il/adiyoss-lab/sims/

💻 使用方法

この基本的なSpeechLMは、音声セグメントの続きを生成するために使用できます。また、クロスモーダルなタスク、例えば音声プロンプトに対するテキストの続きを生成するためにも使用できます。さらに、さらなる微調整のベースとしても利用できます。使用方法の詳細については、SlamKit のコードベースを参照してください。また、生成例については、デモページをチェックしてください。

⚠️ 想定外の使用

このモデルは多様な音声データセットでトレーニングされていますが、出力をいかなる意味でも事実として扱うべきではありません。

🚀 クイックスタート

モデルの完全な使用説明については、公式リポジトリ github を参照してください。

🔧 トレーニングの詳細

トレーニングの詳細については、完全な論文を読むことを強くお勧めします。

計算インフラストラクチャ

ハードウェア

このモデルは、8台のNvidia A100 GPUを使用してトレーニングされました。

ソフトウェア

モデルは、SlamKit コードベースを使用してトレーニングされました。このコードベースは 🤗transformers を拡張し、音声言語モデルの簡単かつ効率的なトレーニングをサポートしています。

📄 引用

BibTeX:

@misc{maimon2025scaling,
      title={Scaling Analysis of Interleaved Speech-Text Language Models}, 
      author={Gallil Maimon and Michael Hassid and Amit Roth and Yossi Adi},
      year={2025},
      eprint={2504.02398},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2504.02398}, 
}