Kotoba-Speech v0.1オープンソース日本語音声生成モデル - テキスト読み上げと単サンプル音声クローニングをサポート

ホーム

Kotoba Speech V0.1

kotoba-techによって開発

Kotoba-Speech v0.1 は12億パラメータのTransformerベースの日本語音声生成モデルで、テキスト読み上げとワンショット音声クローニングをサポートしています。

音声合成

Transformers

日本語オープンソースライセンス:Apache-2.0 #日本語TTS #音声クローン #12億パラメータ

ダウンロード数 23

リリース時間 : 3/14/2024

モデル概要

このモデルはエンドツーエンドのTransformerアーキテクチャ音声生成モデルで、日本語テキスト読み上げと音声クローニング機能に特化しています。

モデル特徴

流暢な日本語音声生成

日本語テキストを流暢に自然な音声に変換可能

ワンショット音声クローニング

音声プロンプトによる単一サンプルでの音声クローニング機能

大規模パラメータ

12億パラメータのTransformerアーキテクチャにより、高品質な音声生成を実現

モデル能力

日本語テキスト読み上げ

音声クローニング

音声合成

使用事例

音声インタラクション

音声アシスタント

日本語音声アシスタントに自然で流暢な音声出力を提供

ユーザー体験の自然さを向上

コンテンツ制作

オーディオブック生成

日本語テキストを自動的にオーディオブックに変換

高品質な音声コンテンツを効率的に生成

パーソナライズドサービス

個別音声クローニング

少数サンプルで特定人物の音声をクローニング

個別化された音声サービスを実現

属性	详情
モデルタイプ	エンドツーエンドのTransformerモデル
言語	日本語
ライブラリ	訓練コードは近日公開予定です。推論とモデルコードは、metavoice を大幅に参考にしています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Kotoba Speech V0.1

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Kotoba-Speech-v0.1

🚀 クイックスタート

✨ 主な機能

📚 ドキュメント

モデル詳細

🔧 謝辞

📄 ライセンス