すべてのカテゴリ

テキスト生成オーディオ

2025年最高の 49 個のテキスト生成オーディオツール

Phi 4 Multimodal Instruct

Phi-4-multimodal-instructは、軽量でオープンソースのマルチモーダル基盤モデルで、Phi-3.5と4.0モデルの言語、視覚、音声研究データを統合しています。テキスト、画像、音声入力をサポートし、テキスト出力を生成し、128Kトークンのコンテキスト長を備えています。

テキスト生成オーディオ

Transformers 複数言語対応

Ultravox V0 5 Llama 3 2 1b

UltravoxはLlama3.2-1BとWhisper-large-v3を基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

テキスト生成オーディオ

Transformers 複数言語対応

Seamless M4t V2 Large

SeamlessM4T v2 は Facebook がリリースした大規模多言語マルチモーダル機械翻訳モデルで、約100言語の音声とテキスト翻訳をサポートしています。

テキスト生成オーディオ

Transformers 複数言語対応

UltravoxはLlama3.1-8B-InstructとWhisper-smallを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

テキスト生成オーディオ

Transformers 英語

Ultravox V0 5 Llama 3 1 8b

UltravoxはLlama3.1-8B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

テキスト生成オーディオ

Transformers 複数言語対応

Hf Seamless M4t Medium

SeamlessM4Tは多言語翻訳モデルで、音声とテキストの入出力をサポートし、言語を超えたコミュニケーションを実現します。

テキスト生成オーディオ

Granite Speech 3.3 8b

自動音声認識(ASR)と自動音声翻訳(AST)向けに設計されたコンパクトで効率的な音声言語モデル。オーディオとテキストを二段階で処理する設計

テキスト生成オーディオ

Transformers 英語

Voila Tokenizer

Voilaは人間と機械のインタラクション体験を向上させるために設計された大規模な音声-言語基盤モデルシリーズで、様々な音声タスクと言語をサポートします。

テキスト生成オーディオ

Transformers 複数言語対応

Hf Seamless M4t Large

SeamlessM4Tは、多言語音声・テキスト翻訳をサポートする統一モデルで、音声から音声、音声からテキスト、テキストから音声、テキストからテキストへの翻訳タスクを実現できます。

テキスト生成オーディオ

Minicpm O 2 6 Int4

MiniCPM-o 2.6のint4量子化バージョンで、GPUのVRAM使用量を大幅に削減し、マルチモーダル処理能力をサポートします。

テキスト生成オーディオ

Transformers その他

Meralion AudioLLM Whisper SEA LION

シンガポールの多言語多文化環境に特化した音声-テキスト大規模言語モデルで、Whisper-large-v2音声エンコーダーとSEA-LION V3テキストデコーダーを統合

テキスト生成オーディオ

Diva Llama 3 V0 8b

DiVA Llama 3はエンドツーエンドの音声アシスタントモデルで、音声とテキスト入力を処理でき、蒸留損失を用いてトレーニングされています。

テキスト生成オーディオ

Voilaは、人間と機械のインタラクション体験を新たなレベルに引き上げることを目的とした、まったく新しい大規模音声-言語基礎モデルシリーズです。

テキスト生成オーディオ

Transformers 複数言語対応

Riffusion Model V1

RiffusionはStable Diffusion技術に基づくリアルタイム音楽生成アプリケーションで、テキスト入力からスペクトログラムを生成し、オーディオクリップに変換できます。

テキスト生成オーディオ

AudioXは任意のコンテンツから音声や音楽を生成できる統一拡散トランスフォーマーモデルです。高品質な汎用音声と音楽作品を生成し、柔軟な自然言語制御を提供し、複数のモダリティ入力をシームレスに処理できます。

テキスト生成オーディオ

Emova Speech Tokenizer Hf

EMOVA音声トークナイザーは、中英両言語に対応した離散音声トークナイザーで、意味-音響デカップリング設計を採用し、柔軟な音声スタイル制御をサポートします。

テキスト生成オーディオ

Transformers 複数言語対応

Llama3.1 Typhoon2 Audio 8b Instruct

タイフーン2-オーディオ版は、オーディオ、音声、テキスト入力を処理し、テキストと音声の両方を同時に生成できるエンドツーエンドの音声変換モデルアーキテクチャです。このモデルは特にタイ語に最適化されており、英語もサポートしています。

テキスト生成オーディオ

Transformers 複数言語対応

Ultravox V0 6 Gemma 3 27b

Ultravoxはマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理でき、音声インタラクションシーンに強力なサポートを提供します。

テキスト生成オーディオ

Transformers 複数言語対応

Ichigo Llama3.1 S Instruct V0.4

Llama-3アーキテクチャに基づくマルチモーダル言語モデルで、音声とテキストの入力を理解し、ノイズ耐性とマルチターン対話能力を備えています

テキスト生成オーディオ英語

Cnn8rnn W2vmean Audiocaps Grounding

これはテキストから音声への位置特定モデルで、音声クリップ内の特定の音声イベント発生確率を予測できます。

テキスト生成オーディオ

Transformers 英語

BART-baseアーキテクチャに基づくテキスト条件付き記号音楽生成モデルで、自然言語の記述からABC記譜法の楽譜を生成可能

テキスト生成オーディオ

Transformers 英語

Phi 4 Multimodal Instruct Ko Asr

microsoft/Phi-4-multimodal-instructを微調整した韓国語自動音声認識(ASR)および音声翻訳(AST)モデルで、zeroth-koreanとfleursデータセットで優れた性能を発揮します。

テキスト生成オーディオ

Transformers 韓国語

Voila Autonomous Preview

Voilaは大規模な音声-言語基盤モデルファミリーで、人間と機械のインタラクション体験を向上させ、リアルタイムで低遅延の音声インタラクションと多言語処理をサポートします。

テキスト生成オーディオ

Transformers 複数言語対応

Qwen2 Audio 7B Instruct I1 GGUF

Qwen2-Audio-7B-Instructの重み/行列量子化モデルで、英語音声テキスト変換タスクをサポート

テキスト生成オーディオ

Transformers 英語

SpeechLLMは、会話中の話者のターンメタデータ（音声活動、転写テキスト、話者の性別、年齢、アクセント、感情など）を予測するために訓練されたマルチモーダル大規模言語モデルです。

テキスト生成オーディオ

Transformers 英語

Ultravox V0 4 1 Llama 3 1 70b

Ultravoxは、事前学習済みのLlama3.1-70B-Instructとwhisper-large-v3-turboバックボーンを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキストの両方を入力として受け取ることができます。

テキスト生成オーディオ

Transformers 複数言語対応

Ultravox V0 6 Llama 3 3 70b

Ultravoxはマルチモーダル音声大規模言語モデルで、事前学習された大規模言語モデルと音声エンコーダを組み合わせ、音声とテキスト入力を処理できます。

テキスト生成オーディオ

Transformers 複数言語対応

Voila Audio Alpha

Voilaは大規模な音声-言語基盤モデルファミリーで、人間と機械のインタラクション体験を向上させ、リアルタイムで低遅延の音声インタラクションと多言語処理をサポートします。

テキスト生成オーディオ

Transformers 複数言語対応

Mustangoは、制御可能な音楽生成のために特別に設計された新しいマルチモーダル大規模言語モデルで、潜在拡散モデル（LDM）、Flan-T5、音楽特徴を統合して高品質なテキストから音楽への生成を実現します。

テキスト生成オーディオ

Songcomposer Sft

InternLM2をベースにした言語大規模モデルで、楽曲制作における歌詞とメロディ生成のために設計されています。

テキスト生成オーディオ

Transformers 複数言語対応

Gazelle v0.2 は Tincans によってリリースされた音声-言語統合モデルで、英語をサポートしています。

テキスト生成オーディオ

Transformers 英語

SIMS Llama3.2 3B

このモデルはLlama-3.2-3Bをファインチューニングした音声言語モデルで、交互音声-テキストSLMの拡張性分析に特化し、音声とテキストの生成タスクをサポートします。

テキスト生成オーディオ

Transformers 英語

Qwen2.5-7Bを拡張した音声言語モデルで、音声-テキスト交互訓練とクロスモーダル生成をサポート

テキスト生成オーディオ

Transformers 英語

Speechgpt 7B Cm

SpeechGPTは内在的なクロスモーダル対話能力を備えた大規模言語モデルで、マルチモーダルコンテンツの知覚と生成が可能であり、音声とテキストのインタラクションをサポートします。

テキスト生成オーディオ

Riffusion Musiccaps

これはgoogle/MusicCapsデータセットでファインチューニングされたRiffusionモデルで、テキストプロンプトに基づいて音楽や音楽関連の画像を生成できます。

テキスト生成オーディオ

TensorBoard 英語

Ichigo Llama3.1 S Instruct V0.4

Llama-3アーキテクチャを基にしたマルチモーダル言語モデルで、音声とテキストの入力を理解可能。ノイズ環境下でより高い耐性とマルチターン対話能力を備えています。

テキスト生成オーディオ英語

Ichigo Llama3.1 S Instruct V0.3 Phase 3

Ichigo-llama3sは音声とテキスト入力をサポートする大規模言語モデルシリーズで、音声理解能力とユーザーインタラクション体験の向上に焦点を当てています。

テキスト生成オーディオ英語

SpeechLLMは、会話中の話者のターンに関するメタデータ（音声活動、転写テキスト、性別、年齢、アクセント、感情など）を予測するためのマルチモーダル大規模言語モデルです。

テキスト生成オーディオ

Transformers 英語

Seamless M4t V2 Large

SeamlessM4Tは大規模な多言語マルチモーダル機械翻訳モデルで、約100言語の音声とテキスト翻訳をサポートしています。

テキスト生成オーディオ複数言語対応

Speechgpt 7B Ma

SpeechGPTは、人間の指示に基づいてマルチモーダルコンテンツを認識・生成できる内在的なクロスモーダル対話能力を備えた大規模言語モデルです。

テキスト生成オーディオ

Ultravox V0 5 Llama 3 3 70b Tempfix

Ultravoxはマルチモーダル音声大規模言語モデルで、音声とテキストを同時に入力として受け取り、複数の言語とタスクをサポートします。

テキスト生成オーディオ

Transformers 複数言語対応

Music Generation Model

これはテキスト生成モデルと音楽生成モデルを統合して作成されたハイブリッドモデルで、テキスト生成と音楽生成の両方のタスクを処理できます。

テキスト生成オーディオ

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase