すべてのカテゴリ

音声生成

2025年最高の 57 個の音声生成ツール

Musicgen Medium

MusicGenはテキスト説明またはオーディオプロンプトに基づいて高品質な音楽サンプルを生成するテキストから音楽へのモデルで、15億パラメータの自己回帰型Transformerアーキテクチャを採用しています。

EnCodecはMeta AIが開発した高音質リアルタイムニューラルオーディオコーデックで、エンドツーエンドトレーニング方式を採用し、複数のバンド幅設定をサポートしています。

Meta AIが開発した高忠実度リアルタイムニューラル音声コーデックで、MusicGenプロジェクト向けにトレーニング

Bigvgan V2 44khz 128band 512x

BigVGANは大規模トレーニングに基づく汎用ニューラルボコーダーで、高品質なオーディオ波形を生成できます。

MusicGenはテキスト記述またはオーディオプロンプトから高品質な音楽サンプルを生成するテキストtoミュージックモデルです。

Stable Audio Open 1.0

Stable Audio Open 1.0はテキストからオーディオを生成するモデルで、テキストプロンプトに基づいて最大47秒の44.1kHzステレオオーディオを生成できます。

音声生成英語

Bigvgan V2 24khz 100band 256x

BigVGANは高性能なニューラルボコーダーで、大規模トレーニングにより高品質なオーディオ合成を実現し、複数のサンプルレートとバンド構成をサポートします。

EnCodecはMeta AIが開発したリアルタイム高音質ニューラルオーディオコーデックで、複数の帯域幅設定とストリーミング処理をサポートしています。

Musicgen Songstarter V0.2

musicgen-stereo-melody-largeをファインチューニングしたテキストからオーディオへの変換モデルで、音楽プロデューサー向けに設計されており、32kHzステレオオーディオの楽曲アイデアを生成可能

音声生成英語

Musicgen Stereo Small

テキスト記述に基づいて高品質なステレオ音楽サンプルを生成するAIモデル、300Mパラメータ規模をサポート

MusicGen SmallはTransformerアーキテクチャに基づく音楽生成モデルで、テキスト記述から高品質な音楽フレーズを生成できます。

MusicGenはテキストから音楽を生成するモデルで、テキストの説明やオーディオのヒントに基づいて高品質な音楽サンプルを生成できます。

Musicgen Melody

MusicGenはシンプルで制御可能な音楽生成モデルで、テキスト説明やメロディ入力に基づいて高品質な音楽を生成できます。

Musicgen Melody Large

MusicGenはMeta AIが開発したテキストから音楽を生成するモデルで、テキスト説明やオーディオプロンプトに基づいて高品質な音楽サンプルを生成できます。

ACE-Step-v1-3.5Bはテキストからオーディオへの変換モデルで、高品質なオーディオ生成をサポートし、音楽やサウンドエフェクトの作成に適しています。

Stable Audio Open Small

テキストプロンプトに基づいて最大11秒の44.1kHzステレオオーディオを生成する拡散モデル

音声生成英語

Stable Codec Speech 16k

Transformerアーキテクチャに基づく高品質低ビットレート音声コーデックモデル、音声データ圧縮と生成モデリング専用に設計

Safetensors 英語

Magnet Small 10secs

MAGNeTはテキストから音楽や音声を生成するモデルで、テキストの説明に基づいて高品質なオーディオサンプルを生成できます。

ACE Step V1 Chinese Rap LoRA

混合ラップボーカルモデルで、中国語ラップ/ヒップホップ音楽の生成品質向上に特化

音声生成複数言語対応

単一GPUで24時間以内にトレーニングされた高品質な音声言語モデル、Qwen2.5-0.5Bを微調整、Hubertトークンを語彙として使用

Inspiremusic 1.5B Long

InspireMusicは、高音質かつ長時間の音楽生成をサポートする、音楽生成、楽曲生成、音声生成に特化した統合ツールキットです。

音声生成英語

TangoFluxは効率的なテキスト音声変換生成システムで、フローマッチングとCLAP選好最適化技術を組み合わせ、高品質な音声を迅速に生成できます。

Audio Magnet Medium

MAGNeTは非自己回帰Transformerベースのテキストから音楽と音響効果を生成するモデルで、テキスト記述に基づいて高品質な音声サンプルを生成できます。

Magnet Medium 30secs

MAGNeTはテキスト記述から高品質なオーディオサンプルを生成できるテキストtoミュージックおよびテキストtoサウンドモデルです。

Musicgen Stereo Large

MusicGenはMeta AIが開発したテキストから音楽を生成するモデルで、ステレオ生成をサポートし、テキスト説明やオーディオプロンプトに基づいて高品質な音楽サンプルを生成できます。

Magnet Medium 10secs

MAGNeTはテキストから音楽や音声を生成するモデルで、テキスト記述に基づいて高品質なオーディオサンプルを生成できます。

Yue S2 1B General Exl2 8.0bpw

YuEは、音楽生成のために設計された画期的なオープンソース基礎モデルシリーズで、特に歌詞から完全な楽曲への変換（lyrics2song）を目的としています。

Musicgen Stereo Medium

Meta AIがリリースしたステレオ音楽生成モデルで、テキスト記述による高品質な音楽生成をサポート

Magnet Small 30secs

MAGNeTはテキストから音楽や音声を生成するモデルで、テキスト記述に基づいて高品質なオーディオサンプルを生成できます。

Sentis MusicGen

Unity Sentisで検証済みのMeta MusicGenモデルで、テキストプロンプトに基づいて最大30秒のスタイリッシュな音楽を生成できます。

Audio Magnet Small

MAGNeTは、テキスト記述に基づいて高品質な音声サンプルを生成できるテキストto音楽およびテキストtoサウンドのモデルです。32kHz EnCodecトークナイザーを使用したマスク生成非自己回帰型Transformerモデルです。

Perceiver Ar Sam Giant Midi

Perceiver ARアーキテクチャに基づくシンボリックオーディオモデルで、GiantMIDI-Pianoデータセットで事前学習され、シンボリックオーディオ生成に使用されます

Tango 2はTangoを改良したテキストからオーディオを生成するモデルで、DPOアライメントトレーニングによりオーディオ生成品質を最適化

Transformers 英語

Yue S1 7B Anneal Jp Kr Icl

YuEは、特に歌詞から楽曲への変換（lyrics2song）のために設計された一連のオープンソース基礎モデルです。

TANGOは命令誘導拡散に基づくテキストから音声へのモデルで、テキストプロンプトに基づいて人間の声、動物の鳴き声、自然および人工音響を含むリアルな音声を生成できます。

Transformers 英語

これは離散Hubertトークンに基づく音声言語モデルで、効率的なトレーニングに焦点を当て、音声セグメントの継続を生成できます。

QAMDTは、テキストから音楽生成に向けた品質認識拡散モデルで、革新的な訓練技術によりオーディオの忠実度と音楽表現力を向上させます。

TunesFormerは、ユーザー定義の音楽形式に適合するメロディを生成するために設計された、Transformerベースのデュアルデコーダーモデルで、特にアイルランド伝統音楽に適しています。

生成AIベースのMIDI音楽創作モデル、ゼロからの生成またはテンプレートに基づく楽曲の続き書きをサポート

Musicgen Stereo Melody

MusicGenはMeta AIが開発したテキストから音楽を生成するモデルで、テキスト説明またはオーディオプロンプトに基づいて高品質なステレオ音楽サンプルを生成できます。

Music Large 800k

これは7.8億パラメータを持つ大規模なTransformerモデルで、音楽生成とトランスクリプションタスクに特化しており、アンティシペーショントレーニング手法を採用しています。

Tango 2はTangoを改良したテキストから音声生成モデルで、直接選好最適化(DPO)技術を用いて音声生成のアライメントトレーニングを実現

Transformers 英語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase