モデル選定

マルチモーダル音声理解

# マルチモーダル音声理解

Ultravox V0 6 Qwen 3 32b

Ultravoxはマルチモーダル音声大規模言語モデルで、音声入力を理解して処理することができ、複数の言語とノイズ環境をサポートします。

音声生成テキスト

Transformers 複数言語対応

Ultravox V0 6 Gemma 3 27b

Ultravoxはマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理でき、音声インタラクションシーンに強力なサポートを提供します。

テキスト生成オーディオ

Transformers 複数言語対応

Ultravox V0 6 Llama 3 3 70b

Ultravoxはマルチモーダル音声大規模言語モデルで、事前学習された大規模言語モデルと音声エンコーダを組み合わせ、音声とテキスト入力を処理できます。

テキスト生成オーディオ

Transformers 複数言語対応

Ultravox V0 5 Llama 3 3 70b Tempfix

Ultravoxはマルチモーダル音声大規模言語モデルで、音声とテキストを同時に入力として受け取り、複数の言語とタスクをサポートします。

テキスト生成オーディオ

Transformers 複数言語対応

Qwen 2 Audio Instruct Dynamic Fp8

Qwen2-AudioはQwen大規模音声言語モデルシリーズの最新バージョンで、複数の音声信号入力を処理し、音声指示に基づいて音声分析を実行したり、直接テキスト応答を生成したりできます。

テキスト生成オーディオ

Transformers 英語

UltravoxはLlama3.1-8B-InstructとWhisper-smallをベースとしたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

音声生成テキスト

Transformers 英語

Ultravox V0 4 1 Llama 3 3 70b

UltravoxはLlama3.3-70B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

音声生成テキスト

Transformers 複数言語対応

Ultravox V0 4 1 Mistral Nemo

UltravoxはMistral-NemoとWhisperをベースにしたマルチモーダルモデルで、音声とテキスト入力を同時に処理でき、音声エージェントや音声翻訳などのタスクに適しています。

音声生成テキスト

Transformers 複数言語対応

Ultravox V0 4 1 Llama 3 1 70b

Ultravoxは、事前学習済みのLlama3.1-70B-Instructとwhisper-large-v3-turboバックボーンを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキストの両方を入力として受け取ることができます。

テキスト生成オーディオ

Transformers 複数言語対応

Ultravox V0 4 1 Llama 3 1 8b

UltravoxはLlama3.1-8B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

音声生成テキスト

Transformers 複数言語対応

Mini Ichigo Llama3.2 3B S Instruct

Ichigo-llama3sシリーズモデルはHomebrew Researchが開発したマルチモーダル言語モデルで、音声とテキストの入力をネイティブに理解できます。このモデルはLlama-3アーキテクチャを基盤としており、WhisperVQを音声ファイルトークナイザーとして使用してトレーニングされ、音声理解能力が向上しています。

テキスト生成オーディオ

Safetensors 英語

Ichigo Llama3.1 S Instruct V0.3 Phase 2

Ichigo-llama3sシリーズモデルは音声とテキスト入力をネイティブで理解可能で、Llama-3アーキテクチャを基盤とし、WhisperVQをオーディオファイルのトークナイザーとして使用しています。

テキスト生成オーディオ英語

Qwen2-Audioは通義千問の大規模音声言語モデルシリーズで、音声チャットと音声分析の2つのインタラクションモードをサポートしています。

音声生成テキスト

Transformers 英語

SpeechLLMは、会話中の話者のターンに関するメタデータ（音声活動、転写テキスト、性別、年齢、アクセント、感情など）を予測するためのマルチモーダル大規模言語モデルです。

テキスト生成オーディオ

Transformers 英語

SpeechLLMは、会話中の話者のターンメタデータ（音声活動、転写テキスト、話者の性別、年齢、アクセント、感情など）を予測するために訓練されたマルチモーダル大規模言語モデルです。

テキスト生成オーディオ

Transformers 英語

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase