すべてのカテゴリ

音声生成テキスト

2025年最高の 30 個の音声生成テキストツール

Qwen2-Audioは通義千問の大規模音声言語モデルシリーズで、音声チャットと音声分析の2つのインタラクションモードをサポートしています。

音声生成テキスト

Transformers 英語

Qwen2 Audio 7B GGUF

Qwen2-Audioは先進的な小規模マルチモーダルモデルで、音声とテキスト入力をサポートし、音声認識モジュールに依存せずに音声インタラクションを実現します。

音声生成テキスト英語

Ultravox V0 5 Llama 3 3 70b

UltravoxはLlama3.3-70BとWhisperを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力をサポートし、音声エージェントや翻訳などのシナリオに適しています。

音声生成テキスト

Transformers 複数言語対応

UltravoxはLlama3.1-8B-InstructとWhisper-mediumを基にしたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

音声生成テキスト

Transformers 複数言語対応

軽量級オーディオモデル、音声認識、オーディオ理解及びオーディオ命令実行などの多様なタスクに優れる

音声生成テキスト

Transformers 英語

Ultravox V0 4 1 Mistral Nemo

UltravoxはMistral-NemoとWhisperをベースにしたマルチモーダルモデルで、音声とテキスト入力を同時に処理でき、音声エージェントや音声翻訳などのタスクに適しています。

音声生成テキスト

Transformers 複数言語対応

Ultravox V0 6 Qwen 3 32b

Ultravoxはマルチモーダル音声大規模言語モデルで、音声入力を理解して処理することができ、複数の言語とノイズ環境をサポートします。

音声生成テキスト

Transformers 複数言語対応

世界最速かつ最も効率的なエッジデバイス向け音声言語モデル、2.6Bパラメータのマルチモーダルモデルで、テキストと音声入力を同時に処理可能。

音声生成テキスト英語

Qwen2 Audio 7B Instruct 4bit

これはQwen2-Audio-7B-Instructの4ビット量子化バージョンで、アリババクラウドのオリジナルQwenモデルに基づいて開発された、オーディオ-テキストマルチモーダル大規模言語モデルです。

音声生成テキスト

Ultravox V0 5 Llama 3 2 1b ONNX

Ultravoxは多言語音声テキスト変換モデルで、LLaMA-3-2.1Bアーキテクチャを最適化し、複数言語の音声認識と文字起こしタスクをサポートします。

音声生成テキスト

Transformers 複数言語対応

UltravoxはLlama3-8B-InstructとWhisper-smallを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

音声生成テキスト

Transformers 英語

R1-AQAはQwen2-Audio-7B-Instructを基にした音声質問応答モデルで、集団相対戦略最適化（GRPO）アルゴリズムによる強化学習最適化を行い、MMAUベンチマークテストで最先端の性能を達成しました。

音声生成テキスト

Ultravox V0 4 1 Llama 3 1 8b

UltravoxはLlama3.1-8B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

音声生成テキスト

Transformers 複数言語対応

Shuka v1は、インド言語の音声理解をネイティブサポートする言語モデルで、独自開発の音声エンコーダーとLlama3-8B-Instructデコーダーを組み合わせ、多言語ゼロショットQAタスクをサポートします。

音声生成テキスト

Transformers 複数言語対応

MuAViCデータセットに基づく多言語視聴音声認識モデル、音声と視覚モダリティを組み合わせた頑健な性能を実現

音声生成テキスト

Seallms Audio 7B

SeaLLMs-Audioは東南アジア向けの大規模音声言語モデルで、インドネシア語、タイ語、ベトナム語、英語、中国語の5つの主要言語をサポートし、音声分析や音声インタラクションなどの機能を備えています。

音声生成テキスト複数言語対応

Gemma 3 4b It Speech

Gemma-3-MMはGemma-3-4b-itを拡張したマルチモーダル指示モデルで、音声処理能力を追加し、テキスト、画像、音声入力を処理してテキスト出力を生成できます。

音声生成テキスト

Pathumma Llm Audio 1.0.0

Pathumma-llm-audio-1.0.0は80億パラメータのタイ語大規模言語モデルで、音声理解タスク向けに設計されており、音声、汎用音声、音楽など様々な音声入力を処理できます。

音声生成テキスト

Transformers 複数言語対応

Llama 3 Typhoon V1.5 8b Audio Preview

Typhoon-Audio プレビュー版はタイ語と英語に対応したオーディオ-言語モデルで、テキストと音声入力を処理し、テキストを出力します。

音声生成テキスト

Qwen2 Audio 7B Instruct GGUF

Qwen2-Audio-7B-Instructモデルの静的量子化バージョンで、英語音声テキスト変換タスクをサポート

音声生成テキスト

Transformers 英語

Qwen-Audio-nf4はQwen-Audioの量子化バージョンで、複数の音声入力とテキスト出力をサポートします

音声生成テキスト

Transformers 複数言語対応

AV HuBERT MuAViC Ru

AV-HuBERTは視聴音声認識モデルで、MuAViC多言語視聴コーパスで訓練され、音声と視覚モダリティを組み合わせて頑健な性能を実現します。

音声生成テキスト

Ultravox V0 4 Llama 3 1 70b

Ultravoxは、事前学習済みのLlama3.1-70B-InstructとWhisper-mediumバックボーンを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキストの両方を入力として受け取ることができます。

音声生成テキスト

Transformers 複数言語対応

Phi 4 Mm Inst Asr Singlish

シンガポール英語に最適化されたマルチモーダル音声認識モデルで、マイクロソフトのPhi-4マルチモーダル命令モデルをファインチューニングし、シンガポール英語の独特な音声特徴の認識能力を大幅に向上させました。

音声生成テキスト

Transformers 複数言語対応

Ichigo Llama3.1 S Base V0.3

Llama3-SシリーズモデルはHomebrew Researchが開発したマルチモーダル言語モデルで、音声とテキスト入力の理解をネイティブサポートし、Llama-3アーキテクチャを拡張して音声理解能力を追加しました。

音声生成テキスト英語

Phi 4 Multimodal Instruct Commonvoice Zh Tw

microsoft/Phi-4-multimodal-instructをファインチューニングした台湾標準中国語音声認識モデルで、台湾標準中国語汎用音声19.0データセットでトレーニング済み

音声生成テキスト

Transformers 中国語

Ultravox V0 4 1 Llama 3 3 70b

UltravoxはLlama3.3-70B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

音声生成テキスト

Transformers 複数言語対応

Mistral Speech To Text

これは実験的なモデルで、オーディオ波形をASCIIアートに変換し、Mistralモデルを微調整してテキストを予測します。

音声生成テキスト

UltravoxはLlama3.1-8B-InstructとWhisper-smallをベースとしたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

音声生成テキスト

Transformers 英語

Ichigo Llama3.1 S Base V0.3

Llama3-Sは音声とテキスト入力をサポートするマルチモーダル言語モデルで、Llama-3アーキテクチャを基に開発され、音声理解能力の向上に焦点を当てています。

音声生成テキスト英語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase