K

Kokoro 82M

prince-canumaによって開発
Kokoroは8200万パラメータのオープンソースTTSモデルで、音質はより大規模なモデルに匹敵しつつ、顕著な速度優位性とコスト効率を備えています。
ダウンロード数 376
リリース時間 : 2/26/2025

モデル概要

Kokoroは軽量なテキスト読み上げモデルで、StyleTTS2アーキテクチャを基にし、複数の言語と音色をサポートし、本番環境や個人プロジェクトに適しています。

モデル特徴

軽量で効率的
8200万パラメータの軽量アーキテクチャで、高品質な音質を維持しつつ高速な推論能力を備えています
多言語サポート
8言語と54音色をサポートし、多様なニーズに対応
オープンソースライセンス
Apache-2.0ライセンスを採用し、商用・個人プロジェクトで自由に利用可能
低コストトレーニング
A100 GPUを使用してわずか1000ドルのトレーニングコストで完了

モデル能力

高品質音声合成
多言語音声生成
音色切り替え
話速調整

使用事例

コンテンツ制作
オーディオブック生成
テキストコンテンツを自然な音声に変換
高品質で表現力豊かな音声を生成
動画吹き替え
動画コンテンツに多言語の音声を追加
複数言語と音色をサポートした音声出力
支援技術
音声支援アプリケーション
視覚障害ユーザー向けにテキスト読み上げ機能を提供
クリアで自然な音声出力を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase