Qwen2 Audio 7B
Apache-2.0
Qwen2-Audioは通義千問の大規模音声言語モデルシリーズで、音声チャットと音声分析の2つのインタラクションモードをサポートしています。
音声生成テキスト
Transformers 英語

Q
Qwen
28.26k
114
Qwen2 Audio 7B GGUF
Apache-2.0
Qwen2-Audioは先進的な小規模マルチモーダルモデルで、音声とテキスト入力をサポートし、音声認識モジュールに依存せずに音声インタラクションを実現します。
音声生成テキスト 英語
Q
NexaAIDev
5,001
153
Ultravox V0 5 Llama 3 3 70b
MIT
UltravoxはLlama3.3-70BとWhisperを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力をサポートし、音声エージェントや翻訳などのシナリオに適しています。
音声生成テキスト
Transformers 複数言語対応

U
fixie-ai
3,817
26
Ultravox V0 4
MIT
UltravoxはLlama3.1-8B-InstructとWhisper-mediumを基にしたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
音声生成テキスト
Transformers 複数言語対応

U
fixie-ai
1,851
48
Aero 1 Audio
MIT
軽量級オーディオモデル、音声認識、オーディオ理解及びオーディオ命令実行などの多様なタスクに優れる
音声生成テキスト
Transformers 英語

A
lmms-lab
1,348
74
Ultravox V0 4 1 Mistral Nemo
MIT
UltravoxはMistral-NemoとWhisperをベースにしたマルチモーダルモデルで、音声とテキスト入力を同時に処理でき、音声エージェントや音声翻訳などのタスクに適しています。
音声生成テキスト
Transformers 複数言語対応

U
fixie-ai
1,285
25
Ultravox V0 6 Qwen 3 32b
MIT
Ultravoxはマルチモーダル音声大規模言語モデルで、音声入力を理解して処理することができ、複数の言語とノイズ環境をサポートします。
音声生成テキスト
Transformers 複数言語対応

U
fixie-ai
1,240
0
Omniaudio 2.6B
Apache-2.0
世界最速かつ最も効率的なエッジデバイス向け音声言語モデル、2.6Bパラメータのマルチモーダルモデルで、テキストと音声入力を同時に処理可能。
音声生成テキスト 英語
O
NexaAIDev
1,149
265
Qwen2 Audio 7B Instruct 4bit
これはQwen2-Audio-7B-Instructの4ビット量子化バージョンで、アリババクラウドのオリジナルQwenモデルに基づいて開発された、オーディオ-テキストマルチモーダル大規模言語モデルです。
音声生成テキスト
Transformers

Q
alicekyting
1,090
6
Ultravox V0 5 Llama 3 2 1b ONNX
MIT
Ultravoxは多言語音声テキスト変換モデルで、LLaMA-3-2.1Bアーキテクチャを最適化し、複数言語の音声認識と文字起こしタスクをサポートします。
音声生成テキスト
Transformers 複数言語対応

U
onnx-community
1,088
3
Ultravox V0 2
MIT
UltravoxはLlama3-8B-InstructとWhisper-smallを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
音声生成テキスト
Transformers 英語

U
fixie-ai
792
51
R1 Aqa
Apache-2.0
R1-AQAはQwen2-Audio-7B-Instructを基にした音声質問応答モデルで、集団相対戦略最適化(GRPO)アルゴリズムによる強化学習最適化を行い、MMAUベンチマークテストで最先端の性能を達成しました。
音声生成テキスト
Transformers

R
mispeech
791
14
Ultravox V0 4 1 Llama 3 1 8b
MIT
UltravoxはLlama3.1-8B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
音声生成テキスト
Transformers 複数言語対応

U
fixie-ai
747
97
Shuka 1
Shuka v1は、インド言語の音声理解をネイティブサポートする言語モデルで、独自開発の音声エンコーダーとLlama3-8B-Instructデコーダーを組み合わせ、多言語ゼロショットQAタスクをサポートします。
音声生成テキスト
Transformers 複数言語対応

S
sarvamai
729
54
AV HuBERT
MuAViCデータセットに基づく多言語視聴音声認識モデル、音声と視覚モダリティを組み合わせた頑健な性能を実現
音声生成テキスト
Transformers

A
nguyenvulebinh
683
3
Seallms Audio 7B
その他
SeaLLMs-Audioは東南アジア向けの大規模音声言語モデルで、インドネシア語、タイ語、ベトナム語、英語、中国語の5つの主要言語をサポートし、音声分析や音声インタラクションなどの機能を備えています。
音声生成テキスト 複数言語対応
S
SeaLLMs
539
10
Gemma 3 4b It Speech
Gemma-3-MMはGemma-3-4b-itを拡張したマルチモーダル指示モデルで、音声処理能力を追加し、テキスト、画像、音声入力を処理してテキスト出力を生成できます。
音声生成テキスト
Transformers

G
junnei
383
12
Pathumma Llm Audio 1.0.0
Apache-2.0
Pathumma-llm-audio-1.0.0は80億パラメータのタイ語大規模言語モデルで、音声理解タスク向けに設計されており、音声、汎用音声、音楽など様々な音声入力を処理できます。
音声生成テキスト
Transformers 複数言語対応

P
nectec
333
7
Llama 3 Typhoon V1.5 8b Audio Preview
Typhoon-Audio プレビュー版はタイ語と英語に対応したオーディオ-言語モデルで、テキストと音声入力を処理し、テキストを出力します。
音声生成テキスト
Transformers

L
scb10x
218
12
Qwen2 Audio 7B Instruct GGUF
Apache-2.0
Qwen2-Audio-7B-Instructモデルの静的量子化バージョンで、英語音声テキスト変換タスクをサポート
音声生成テキスト
Transformers 英語

Q
mradermacher
146
0
Qwen Audio Nf4
Qwen-Audio-nf4はQwen-Audioの量子化バージョンで、複数の音声入力とテキスト出力をサポートします
音声生成テキスト
Transformers 複数言語対応

Q
Ostixe360
134
1
AV HuBERT MuAViC Ru
AV-HuBERTは視聴音声認識モデルで、MuAViC多言語視聴コーパスで訓練され、音声と視覚モダリティを組み合わせて頑健な性能を実現します。
音声生成テキスト
Transformers

A
nguyenvulebinh
91
1
Ultravox V0 4 Llama 3 1 70b
MIT
Ultravoxは、事前学習済みのLlama3.1-70B-InstructとWhisper-mediumバックボーンを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキストの両方を入力として受け取ることができます。
音声生成テキスト
Transformers 複数言語対応

U
fixie-ai
79
4
Phi 4 Mm Inst Asr Singlish
MIT
シンガポール英語に最適化されたマルチモーダル音声認識モデルで、マイクロソフトのPhi-4マルチモーダル命令モデルをファインチューニングし、シンガポール英語の独特な音声特徴の認識能力を大幅に向上させました。
音声生成テキスト
Transformers 複数言語対応

P
mjwong
61
0
Ichigo Llama3.1 S Base V0.3
Apache-2.0
Llama3-SシリーズモデルはHomebrew Researchが開発したマルチモーダル言語モデルで、音声とテキスト入力の理解をネイティブサポートし、Llama-3アーキテクチャを拡張して音声理解能力を追加しました。
音声生成テキスト 英語
I
homebrewltd
33
4
Phi 4 Multimodal Instruct Commonvoice Zh Tw
MIT
microsoft/Phi-4-multimodal-instructをファインチューニングした台湾標準中国語音声認識モデルで、台湾標準中国語汎用音声19.0データセットでトレーニング済み
音声生成テキスト
Transformers 中国語

P
JacobLinCool
28
1
Ultravox V0 4 1 Llama 3 3 70b
MIT
UltravoxはLlama3.3-70B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
音声生成テキスト
Transformers 複数言語対応

U
fixie-ai
26
10
Mistral Speech To Text
Apache-2.0
これは実験的なモデルで、オーディオ波形をASCIIアートに変換し、Mistralモデルを微調整してテキストを予測します。
音声生成テキスト
Transformers

M
0-hero
20
1
Ultravox V0 3
MIT
UltravoxはLlama3.1-8B-InstructとWhisper-smallをベースとしたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
音声生成テキスト
Transformers 英語

U
FriendliAI
20
1
Ichigo Llama3.1 S Base V0.3
Apache-2.0
Llama3-Sは音声とテキスト入力をサポートするマルチモーダル言語モデルで、Llama-3アーキテクチャを基に開発され、音声理解能力の向上に焦点を当てています。
音声生成テキスト 英語
I
Menlo
18
4