L

Llasa 3B

unslothによって開発
LlasaはLLaMAベースのテキスト読み上げ(TTS)システムで、音声トークンを統合することで言語モデルの能力を拡張し、中国語と英語の音声生成をサポートします。
ダウンロード数 55
リリース時間 : 5/15/2025

モデル概要

Llasaはテキスト読み上げ(TTS)システムで、XCodec2コードブックからの65,536個の音声トークンを統合することで、テキストベースのLLaMA言語モデルを拡張しました。このモデルは入力テキストのみから、または与えられた音声プロンプトを利用して音声を生成できます。

モデル特徴

訓練時と推論時の計算拡張
訓練と推論の段階で拡張計算をサポートし、モデル性能を向上
多言語サポート
中国語と英語の音声生成をサポート
音声プロンプト生成
与えられた音声プロンプトを利用して音声を生成可能
効率的な訓練
TTSの訓練はLLMの訓練と類似しており、既存のLLMの圧縮、加速、微調整方法を利用可能

モデル能力

テキスト読み上げ
音声プロンプト生成
中英音声合成

使用事例

音声合成
音声アシスタント
仮想アシスタントのための自然な音声を生成
高品質な音声出力を生成
オーディオブック
テキストコンテンツを音声に変換
自然で流暢な音声を生成
音声プロンプトアプリケーション
音声スタイル変換
与えられた音声プロンプトに基づいて類似スタイルの音声を生成
音声スタイルの一貫性を維持
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase