S

Slam Scaled

slprlによって開発
単一GPUで24時間以内にトレーニングされた高品質な音声言語モデル、Qwen2.5-0.5Bを微調整、Hubertトークンを語彙として使用
ダウンロード数 792
リリース時間 : 2/18/2025

モデル概要

音声セグメント生成に特化した音声言語モデル、離散音声トークンによる効率的なトレーニングと推論をサポート

モデル特徴

効率的トレーニング
学術用単一GPUで24時間以内に高品質モデルのトレーニングを完了
音声トークン処理
mhubert-25hzから抽出した500音声トークンを語彙として使用
多段階最適化
事前トレーニングとDPO選好最適化を組み合わせ、生成品質を向上
低リソース要件
A100 GPU2枚で48時間トレーニングを完了、計算コストが極めて低い

モデル能力

音声セグメント生成
音声継続予測
音声トークン処理

使用事例

音声生成
音声ストーリー継続
与えられた音声セグメントから一貫性のある続きを生成
sStoryClozeテストセットで61.30%精度を達成
音声対話システム
音声対話システムの生成コンポーネントとして
教育応用
言語学習支援
音声練習教材を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase