S

Slam

slprlによって開発
これは離散Hubertトークンに基づく音声言語モデルで、効率的なトレーニングに焦点を当て、音声セグメントの継続を生成できます。
ダウンロード数 115
リリース時間 : 2/18/2025

モデル概要

このモデルはQwen/Qwen2.5-0.5Bからファインチューニングされたもので、mhubert-25hzの第11層から抽出された500の音声トークンの語彙に基づいており、音声セグメントの継続生成やさらなるチューニングの基礎として使用できます。

モデル特徴

効率的なトレーニング
論文『Slamming』で提案された方法を採用し、1枚のGPUで1日以内にトレーニングを完了できます。
音声トークン処理
mhubert-25hzの第11層から抽出された500の音声トークンの語彙に基づいています。
DPOトレーニング
SpokenSwagデータセットでDPOを使用してトレーニングされ、生成品質を最適化しています。

モデル能力

音声セグメント継続生成
音声言語モデルの基本チューニング

使用事例

音声生成
音声ストーリー継続
与えられた音声ストーリーセグメントから合理的な続きを生成します。
オーディオブック制作や音声インタラクションアプリケーションに使用可能
音声対話継続
音声対話システムで自然な応答内容を生成します。
対話システムの自然さと一貫性を向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase