vits-cmnオープンソーステキスト読み上げモデル - 無料でデプロイして高品質な中国語音声合成を実現

ホーム

Vits Cmn

BricksDisplayによって開発

VITSは敵対的学習に基づく条件付き変分オートエンコーダのエンドツーエンドテキスト音声合成モデルで、中国語音声合成をサポートしています。

音声合成

Transformers

中国語オープンソースライセンス:Apache-2.0 #中国語TTS #複数話者 #エンドツーエンド音声合成

ダウンロード数 21

リリース時間 : 1/10/2024

モデル概要

このモデルは条件付き変分オートエンコーダアーキテクチャを採用し、入力テキストシーケンスに対応する音声波形を予測でき、44種類の話者をサポートします。

モデル特徴

エンドツーエンド音声合成

中間特徴抽出ステップなしで、テキストから直接音声波形を生成します。

複数話者サポート

44種類の異なる話者の音声合成をサポートします。

敵対的学習トレーニング

敵対的トレーニング戦略を採用し、音声品質と自然さを向上させます。

中国語最適化

中国語音声特性に特化して最適化され、ピンイン入力をサポートします。

モデル能力

中国語テキスト音声合成

複数話者音声合成

高品質音声生成

使用事例

音声インタラクション

スマート音声アシスタント

スマートデバイスに自然な中国語音声出力機能を提供します。

自然で流暢な中国語音声を生成

アクセシビリティアプリ

テキスト読み上げ

視覚障害ユーザーにテキストコンテンツの読み上げ機能を提供します。

高品質な中国語音声出力

マルチメディア制作

動画吹き替え

動画コンテンツに自動的に中国語吹き替えを生成します。

複数話者選択可能、自然な音声効果

属性	详情
言語	中国語
データセット	THCHS - 30
話者	44人
学習時間	48時間

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Vits Cmn

モデル概要

モデル特徴

モデル能力

使用事例

🚀 VITS: 敵対的学習を用いた条件付き変分オートエンコーダによるエンドツーエンドのテキスト読み上げ

📚 ドキュメント

モデル詳細

💻 使用例

基本的な使用法

Hugging Face Transformersからの使用

Transformers.jsからの使用

📄 ライセンス