XTTS V2
ⓍTTS-v2は先進的な音声生成モデルで、17言語をサポートし、わずか6秒の音声で声をクローンし、クロスランゲージ音声合成を実現します。
ダウンロード数 6
リリース時間 : 10/24/2024
モデル概要
XTTS-v2はCoqui AIが開発したテキスト読み上げモデルで、高品質な音声合成、声のクローン、クロスランゲージ変換機能を備えています。複数の感情やスタイル転移をサポートし、サンプリングレートは24kHzです。
モデル特徴
多言語サポート
17言語の音声合成と声のクローンをサポート
高速声クローン
わずか6秒の音声クリップでターゲットの声をクローン
クロスランゲージ変換
クローンした声を異なる言語の音声合成に使用可能
感情スタイル転移
元の音声の感情やスタイル特徴を保持・変換可能
高品質出力
24kHzサンプリングレートで高品質な音声合成効果を提供
モデル能力
テキスト読み上げ
声のクローン
クロスランゲージ音声合成
感情スタイル変換
複数話者補間
使用事例
コンテンツ制作
オーディオブック制作
クローンした声を使用して異なる言語のオーディオブックを吹き替え
一貫したナレーション音声を維持しながら多言語バージョンをサポート
動画吹き替え
動画コンテンツの多言語吹き替えを生成
ローカライズコンテンツを迅速に作成
支援技術
音声支援デバイス
音声支援デバイスに個性的な音声オプションを提供
ユーザー体験とアクセシビリティを向上
教育
言語学習
ターゲット言語の発音例を生成
学習者が正しい発音を習得するのを支援
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98