S

Speechless Llama3.2 V0.1

homebrewltdによって開発
Speechlessはコンパクトなオープンソースのテキストからセマンティックへのモデル(10億パラメータ)で、従来のテキスト読み上げ(TTS)モデルに依存せず、オーディオを直接離散的なセマンティック表現タグに変換することを目的としています。
ダウンロード数 28
リリース時間 : 12/28/2024

モデル概要

このモデルは、テキストを直接セマンティック音声タグに変換することで、トレーニングプロセスを簡素化し、リソースを節約し、特にリソースが不足している言語での拡張性を実現します。

モデル特徴

直接オーディオ変換
従来のテキスト読み上げ(TTS)モデルに依存せず、オーディオを直接離散的なセマンティック表現タグに変換します。
リソース効率
トレーニングプロセスを簡素化し、リソースを節約し、特にリソースが不足している言語に適しています。
多言語サポート
英語とベトナム語をサポートし、400時間以上の英語データと1000時間以上のベトナム語データに基づいてトレーニングされています。

モデル能力

オーディオからセマンティックタグへ
多言語処理
効率的なリソース利用

使用事例

音声処理
音声タグ生成
オーディオを直接離散的なセマンティック表現タグに変換し、後続の処理や分析に使用します。
単語誤り率はベトナム語テストセットで3.99、英語テストセットで3.27です。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase