モデル選定

多言語音声合成

# 多言語音声合成

Outetts 1.0 0.6B GGUF

OuteTTS-1.0-0.6B GGUFは多言語テキストを音声に変換するモデルで、音声合成とクローニングをサポートし、効率的かつ正確な音声生成能力を提供します。

音声合成複数言語対応

Llama OuteTTS 1.0 1B

OuteTTS 1.0はLlamaアーキテクチャに基づく多言語テキスト読み上げモデルで、20言語をサポートし、高品質な音声合成と音声クローン機能を備えています。

音声合成複数言語対応

LlasaはLLaMAベースのテキスト読み上げ(TTS)システムで、音声トークンを統合することで言語モデルの能力を拡張し、中国語と英語の音声生成をサポートします。

音声合成複数言語対応

BarkはSunoによって作成されたTransformerベースのテキストからオーディオへのモデルで、非常にリアルな多言語音声、音楽、背景ノイズ、音響効果を生成できます。

音声合成複数言語対応

Llama OuteTTS 1.0 1B GPTQ 8bit

OuteTTS 1.0は1Bパラメータのテキスト音声合成モデルで、多言語音声合成と音声クローニングをサポートします

音声合成複数言語対応

IndicF5は、11のインド言語をサポートするほぼ人間レベルの多言語テキスト読み上げ(TTS)モデルです。

音声合成その他

viⓍTTS は音声生成モデルで、6秒の短い音声クリップから異なる言語への音声クローンが可能です。

音声合成その他

Voila Autonomous Preview

Voilaは大規模な音声-言語基盤モデルファミリーで、人間と機械のインタラクション体験を向上させ、リアルタイムで低遅延の音声インタラクションと多言語処理をサポートします。

テキスト生成オーディオ

Transformers 複数言語対応

Voila Audio Alpha

Voilaは大規模な音声-言語基盤モデルファミリーで、人間と機械のインタラクション体験を向上させ、リアルタイムで低遅延の音声インタラクションと多言語処理をサポートします。

テキスト生成オーディオ

Transformers 複数言語対応

Voilaは、人間と機械のインタラクション体験を新たなレベルに引き上げることを目的とした、まったく新しい大規模音声-言語基礎モデルシリーズです。

テキスト生成オーディオ

Transformers 複数言語対応

Voilaは、人間とコンピュータのインタラクション体験を新たな高みに引き上げることを目的とした、新世代の大規模音声-言語基盤モデルファミリーです。

Transformers 複数言語対応

IndicF5は1417時間の高品質音声データでトレーニングされた、人間に近い多言語テキスト読み上げ(TTS)モデルで、11のインド言語をサポートしています。

音声合成その他

Speecht5 Finetuned Voxpopuli Lt

microsoft/speecht5_ttsモデルをvoxpopuliデータセットでファインチューニングしたテキスト音声合成モデル

Kokoroは8200万パラメータのオープンソースTTSモデルで、音質はより大規模なモデルに匹敵しつつ、顕著な速度優位性とコスト効率を備えています。

音声合成英語

Voila Tokenizer

Voilaは人間と機械のインタラクション体験を向上させるために設計された大規模な音声-言語基盤モデルシリーズで、様々な音声タスクと言語をサポートします。

テキスト生成オーディオ

Transformers 複数言語対応

YarnGPT2はナイジェリアアクセントの言語（ヨルバ語、イボ語、ハウサ語及び英語）を合成するために特別に設計されたテキスト読み上げ（TTS）モデルです。

Transformers 英語

Cosyvoice2 0.5B

CosyVoiceはテキスト読み上げ(TTS)モデルで、多言語対応と音声変換機能を備え、高品質な音声合成を提供します。

Parler Tts Mini Multilingual V1.1

Parler-TTS ミニ多言語版 v1.1 は Parler-TTS ミニ版の多言語拡張で、8つのヨーロッパ言語のテキスト読み上げをサポートします。

Transformers 複数言語対応

Indri 0.1 350m Tts

IndriはTransformerアーキテクチャに基づく新規・超小型・軽量なTTSモデルで、英語とヒンディー語のテキスト音声変換タスクをサポートします。

Transformers 複数言語対応

GPT SoVITS V1 Base

GPT-SoVITS (V1) は多言語テキスト読み上げ基礎モデルで、中国語、英語、日本語をサポートしています。

音声合成複数言語対応

Indic Parler Tts Pretrained

Indic Parler-TTS事前学習モデルはParler-TTS Miniの多言語インド語拡張版で、21言語をサポートし、複数のインド言語と英語を含みます。

Transformers 複数言語対応

Indic Parler Tts

Indic Parler-TTS は Parler-TTS Mini の多言語インド語拡張版で、21言語をサポートし、複数のインド言語と英語を含みます。

Transformers 複数言語対応

これはTransformersベースのテキスト読み上げ(TTS)モデルで、入力テキストを自然な音声出力に変換できます。

XTTS V2 Argentinian Spanish

ⓍTTSは音声生成モデルで、わずか6秒の音声で声をクローンし、異なる言語に適用可能、アルゼンチンアクセントのスペイン語をサポートします。

音声合成スペイン語

Cosyvoice 300M SFT

CosyVoiceはテキスト読み上げ(TTS)モデルで、複数の言語とスタイルの音声合成をサポートしています。

XTTS V2 Argentinian Spanish

ⓍTTSは音声生成モデルで、わずか6秒の音声サンプルで声をクローンし、異なる言語に適用できます。何時間もの大量のトレーニングデータは必要ありません。

音声合成スペイン語

Speecht5 Tts Urdu

マイクロソフトSpeechT5アーキテクチャを基にファインチューニングしたウルドゥー語テキスト音声変換モデルで、ローマ字入力をサポート

Transformers その他

viⓍTTS は音声生成モデルで、18言語の音声クローンをサポートし、特にベトナム語に最適化されています。

Transformers その他

Mms Tts Tuk Script Latin

Meta社が開発したトルクメン語テキスト音声変換モデルで、大規模多言語音声プロジェクトの一部であり、ラテン文字表記のトルクメン語音声合成をサポートしています。

Meta社が開発したカタルーニャ語テキスト音声変換モデルで、VITSエンドツーエンドアーキテクチャを採用し、高品質な音声合成をサポート

Meta社が開発したベンガル語テキスト音声変換モデルで、VITSアーキテクチャに基づき、高品質な音声合成をサポート

Meta社が開発したベンバ語(bem)テキスト音声変換モデルで、大規模多言語音声プロジェクトの一部

Meta社が開発したソマリ語テキスト音声変換モデルで、MMSプロジェクトの一部であり、ソマリ語テキストを自然な音声に変換することをサポートします。

Meta社が開発したククチ語テキスト音声変換モデルで、大規模多言語音声プロジェクトの一部

Facebook MMSプロジェクトのオリヤー語テキスト音声変換モデル、VITSアーキテクチャに基づく高品質な音声合成

Meta社が開発したラトビア語テキスト音声変換モデル、VITSアーキテクチャに基づき、高品質な音声合成をサポート

Meta社が開発したラテン語テキスト音声変換モデルで、VITSアーキテクチャに基づき、高品質な音声合成をサポート

Meta社が開発したルーマニア語テキスト音声変換モデルで、VITSアーキテクチャを採用し、高品質な音声合成をサポート

Meta社が開発したタガログ語向けのエンドツーエンドテキスト音声変換モデルで、VITSアーキテクチャに基づき、高品質な音声合成をサポート

Meta社が開発したエセエハ語テキスト音声変換モデルで、大規模多言語音声プロジェクトの一部であり、高品質な音声合成をサポートします。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase