vits-engオープンソース英文テキスト音声変換モデル - 高品質な音声合成に対応、無料で利用可能

ホーム

Vits Eng

BricksDisplayによって開発

VITSアーキテクチャに基づく英語テキスト音声合成モデル、Kakao Enterpriseがトレーニング、高品質な音声合成をサポート

音声合成

Transformers

英語オープンソースライセンス:MIT #英語音声合成 #音素変換 #高音質オーディオ

ダウンロード数 28

リリース時間 : 1/15/2024

モデル概要

これはVITSアーキテクチャに基づく英語テキスト音声合成モデルで、英語テキストを自然な音声出力に変換できます。モデルはLJ Speechデータセットでトレーニングされており、英語音声合成が必要なアプリケーションに適しています。

モデル特徴

高品質音声合成

VITSアーキテクチャに基づき、自然で滑らかな英語音声を生成可能

エンドツーエンドモデル

テキストから音声への直接合成が可能で、複雑な中間処理が不要

音素入力サポート

音素入力をサポートし、phonemizeライブラリと組み合わせた前処理が可能

モデル能力

英語テキスト音声合成

高品質音声合成

16kHzサンプリングレート音声出力対応

使用事例

音声アシスタント

スマート音声アシスタント

スマートデバイス向けに自然な音声出力を提供

自然で滑らかな音声応答を生成

オーディオブック

電子書籍読み上げ

電子書籍の内容を音声に変換

明確で理解しやすいオーディオブックを生成

教育アプリケーション

言語学習ツール

言語学習アプリ向けに標準的な発音を提供

学習者が正しい発音を習得するのを支援

属性	详情
モデルタイプ	テキスト読み上げ
学習データ	lj_speech
ライブラリ名	transformers.js
ベースモデル	kakao-enterprise/vits-ljs

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Vits Eng

モデル概要

モデル特徴

モデル能力

使用事例

🚀 音声合成モデル（vits-eng）

🚀 クイックスタート

💻 使用例

基本的な使用法

📄 ライセンス