V

Vits Ljs

kakao-enterpriseによって開発
VITSはエンドツーエンドの音声合成モデルで、入力テキスト系列から対応する音声波形を予測できます。
ダウンロード数 1,127
リリース時間 : 8/31/2023

モデル概要

VITSは条件付き変分自己符号化器アーキテクチャを採用し、敵対学習を組み合わせることで高品質なテキスト音声変換を実現します。

モデル特徴

エンドツーエンド音声合成
中間特徴抽出ステップなしでテキストから直接音声波形を生成
敵対学習
変分下限損失と敵対損失を組み合わせた学習により音声品質を向上
ランダム時間長予測
同一テキストで異なるリズムの音声出力を生成可能
フローモデルアーキテクチャ
フローベースのスペクトル特徴予測システムを採用し生成効率を向上

モデル能力

テキスト音声変換
音声合成
マルチリズム音声生成

使用事例

音声インタラクション
音声アシスタント
仮想アシスタントに自然な音声出力を提供
人間の発話に近い音声を生成
アクセシビリティ技術
テキスト読み上げ
書かれたテキストを音声出力に変換
視覚障害者の情報取得を支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase