S

Speecht5 Vc

microsoftによって開発
SpeechT5はCMU ARCTICデータセットでファインチューニングされた音声変換モデルで、音声内容を保持しながら音色特徴を変更することができます。
ダウンロード数 14.40k
リリース時間 : 2/2/2023

モデル概要

SpeechT5は統一モーダルのエンコーダ-デコーダ事前学習フレームワークで、音声変換タスク専用に設計されています。入力音声波形を異なる音色特徴を持つ出力音声に変換し、元の音声内容を保持します。

モデル特徴

統一モーダルアーキテクチャ
音声とテキストを処理する共有エンコーダ-デコーダネットワークを使用し、クロスモーダルの統一表現学習を実現
クロスモーダルベクトル量子化
潜在ユニットによる音声/テキスト状態のランダム混合を通じて、テキストと音声情報を統一された意味空間で整合
マルチタスク適応性
事前学習フレームワークは音声認識、合成、翻訳、変換など複数の音声処理タスクに適応可能

モデル能力

音声変換
音色特徴変更
音声内容保持

使用事例

音声処理
音声スタイル変換
ある話者の音声スタイルを別のスタイルに変換し、吹き替えや音声合成などのシナリオに適用
音声内容を変更せず、音色特徴のみを変更
音声強化アプリケーション
音声品質の改善や音声特徴の調整に適用可能で、通信やエンターテインメント分野に有用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase