Phi 4 Multimodal Instruct
MIT
Phi-4-multimodal-instructは、軽量でオープンソースのマルチモーダル基盤モデルで、Phi-3.5と4.0モデルの言語、視覚、音声研究データを統合しています。テキスト、画像、音声入力をサポートし、テキスト出力を生成し、128Kトークンのコンテキスト長を備えています。
テキスト生成オーディオ
Transformers 複数言語対応

P
microsoft
584.02k
1,329
Ultravox V0 5 Llama 3 2 1b
MIT
UltravoxはLlama3.2-1BとWhisper-large-v3を基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
テキスト生成オーディオ
Transformers 複数言語対応

U
fixie-ai
167.25k
21
Seamless M4t V2 Large
SeamlessM4T v2 は Facebook がリリースした大規模多言語マルチモーダル機械翻訳モデルで、約100言語の音声とテキスト翻訳をサポートしています。
テキスト生成オーディオ
Transformers 複数言語対応

S
facebook
64.59k
821
Ultravox V0 3
MIT
UltravoxはLlama3.1-8B-InstructとWhisper-smallを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
テキスト生成オーディオ
Transformers 英語

U
fixie-ai
48.30k
17
Ultravox V0 5 Llama 3 1 8b
MIT
UltravoxはLlama3.1-8B-Instructとwhisper-large-v3-turboを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
テキスト生成オーディオ
Transformers 複数言語対応

U
fixie-ai
17.86k
12
Hf Seamless M4t Medium
SeamlessM4Tは多言語翻訳モデルで、音声とテキストの入出力をサポートし、言語を超えたコミュニケーションを実現します。
テキスト生成オーディオ
Transformers

H
facebook
14.74k
30
Granite Speech 3.3 8b
Apache-2.0
自動音声認識(ASR)と自動音声翻訳(AST)向けに設計されたコンパクトで効率的な音声言語モデル。オーディオとテキストを二段階で処理する設計
テキスト生成オーディオ
Transformers 英語

G
ibm-granite
5,532
35
Voila Tokenizer
MIT
Voilaは人間と機械のインタラクション体験を向上させるために設計された大規模な音声-言語基盤モデルシリーズで、様々な音声タスクと言語をサポートします。
テキスト生成オーディオ
Transformers 複数言語対応

V
maitrix-org
4,912
3
Hf Seamless M4t Large
SeamlessM4Tは、多言語音声・テキスト翻訳をサポートする統一モデルで、音声から音声、音声からテキスト、テキストから音声、テキストからテキストへの翻訳タスクを実現できます。
テキスト生成オーディオ
Transformers

H
facebook
4,648
57
Minicpm O 2 6 Int4
MiniCPM-o 2.6のint4量子化バージョンで、GPUのVRAM使用量を大幅に削減し、マルチモーダル処理能力をサポートします。
テキスト生成オーディオ
Transformers その他

M
openbmb
4,249
42
Meralion AudioLLM Whisper SEA LION
その他
シンガポールの多言語多文化環境に特化した音声-テキスト大規模言語モデルで、Whisper-large-v2音声エンコーダーとSEA-LION V3テキストデコーダーを統合
テキスト生成オーディオ
Transformers

M
MERaLiON
2,828
12
Diva Llama 3 V0 8b
DiVA Llama 3はエンドツーエンドの音声アシスタントモデルで、音声とテキスト入力を処理でき、蒸留損失を用いてトレーニングされています。
テキスト生成オーディオ
Transformers

D
WillHeld
2,596
34
Voila Chat
MIT
Voilaは、人間と機械のインタラクション体験を新たなレベルに引き上げることを目的とした、まったく新しい大規模音声-言語基礎モデルシリーズです。
テキスト生成オーディオ
Transformers 複数言語対応

V
maitrix-org
2,423
32
Riffusion Model V1
Openrail
RiffusionはStable Diffusion技術に基づくリアルタイム音楽生成アプリケーションで、テキスト入力からスペクトログラムを生成し、オーディオクリップに変換できます。
テキスト生成オーディオ
R
riffusion
2,354
620
Audiox
AudioXは任意のコンテンツから音声や音楽を生成できる統一拡散トランスフォーマーモデルです。高品質な汎用音声と音楽作品を生成し、柔軟な自然言語制御を提供し、複数のモダリティ入力をシームレスに処理できます。
テキスト生成オーディオ
A
HKUSTAudio
2,189
49
Emova Speech Tokenizer Hf
Apache-2.0
EMOVA音声トークナイザーは、中英両言語に対応した離散音声トークナイザーで、意味-音響デカップリング設計を採用し、柔軟な音声スタイル制御をサポートします。
テキスト生成オーディオ
Transformers 複数言語対応

E
Emova-ollm
895
2
Llama3.1 Typhoon2 Audio 8b Instruct
タイフーン2-オーディオ版は、オーディオ、音声、テキスト入力を処理し、テキストと音声の両方を同時に生成できるエンドツーエンドの音声変換モデルアーキテクチャです。このモデルは特にタイ語に最適化されており、英語もサポートしています。
テキスト生成オーディオ
Transformers 複数言語対応

L
scb10x
664
9
Ultravox V0 6 Gemma 3 27b
MIT
Ultravoxはマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理でき、音声インタラクションシーンに強力なサポートを提供します。
テキスト生成オーディオ
Transformers 複数言語対応

U
fixie-ai
641
2
Ichigo Llama3.1 S Instruct V0.4
Apache-2.0
Llama-3アーキテクチャに基づくマルチモーダル言語モデルで、音声とテキストの入力を理解し、ノイズ耐性とマルチターン対話能力を備えています
テキスト生成オーディオ 英語
I
homebrewltd
486
19
Cnn8rnn W2vmean Audiocaps Grounding
Apache-2.0
これはテキストから音声への位置特定モデルで、音声クリップ内の特定の音声イベント発生確率を予測できます。
テキスト生成オーディオ
Transformers 英語

C
wsntxxn
456
2
Text To Music
MIT
BART-baseアーキテクチャに基づくテキスト条件付き記号音楽生成モデルで、自然言語の記述からABC記譜法の楽譜を生成可能
テキスト生成オーディオ
Transformers 英語

T
sander-wood
405
143
Phi 4 Multimodal Instruct Ko Asr
microsoft/Phi-4-multimodal-instructを微調整した韓国語自動音声認識(ASR)および音声翻訳(AST)モデルで、zeroth-koreanとfleursデータセットで優れた性能を発揮します。
テキスト生成オーディオ
Transformers 韓国語

P
junnei
354
3
Voila Autonomous Preview
MIT
Voilaは大規模な音声-言語基盤モデルファミリーで、人間と機械のインタラクション体験を向上させ、リアルタイムで低遅延の音声インタラクションと多言語処理をサポートします。
テキスト生成オーディオ
Transformers 複数言語対応

V
maitrix-org
332
8
Qwen2 Audio 7B Instruct I1 GGUF
Apache-2.0
Qwen2-Audio-7B-Instructの重み/行列量子化モデルで、英語音声テキスト変換タスクをサポート
テキスト生成オーディオ
Transformers 英語

Q
mradermacher
282
0
Speechllm 2B
Apache-2.0
SpeechLLMは、会話中の話者のターンメタデータ(音声活動、転写テキスト、話者の性別、年齢、アクセント、感情など)を予測するために訓練されたマルチモーダル大規模言語モデルです。
テキスト生成オーディオ
Transformers 英語

S
skit-ai
237
16
Ultravox V0 4 1 Llama 3 1 70b
MIT
Ultravoxは、事前学習済みのLlama3.1-70B-Instructとwhisper-large-v3-turboバックボーンを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキストの両方を入力として受け取ることができます。
テキスト生成オーディオ
Transformers 複数言語対応

U
fixie-ai
204
24
Ultravox V0 6 Llama 3 3 70b
MIT
Ultravoxはマルチモーダル音声大規模言語モデルで、事前学習された大規模言語モデルと音声エンコーダを組み合わせ、音声とテキスト入力を処理できます。
テキスト生成オーディオ
Transformers 複数言語対応

U
fixie-ai
196
0
Voila Audio Alpha
MIT
Voilaは大規模な音声-言語基盤モデルファミリーで、人間と機械のインタラクション体験を向上させ、リアルタイムで低遅延の音声インタラクションと多言語処理をサポートします。
テキスト生成オーディオ
Transformers 複数言語対応

V
maitrix-org
175
3
Mustango
Apache-2.0
Mustangoは、制御可能な音楽生成のために特別に設計された新しいマルチモーダル大規模言語モデルで、潜在拡散モデル(LDM)、Flan-T5、音楽特徴を統合して高品質なテキストから音楽への生成を実現します。
テキスト生成オーディオ
Transformers

M
declare-lab
165
40
Songcomposer Sft
Apache-2.0
InternLM2をベースにした言語大規模モデルで、楽曲制作における歌詞とメロディ生成のために設計されています。
テキスト生成オーディオ
Transformers 複数言語対応

S
Mar2Ding
113
13
Gazelle V0.2
Apache-2.0
Gazelle v0.2 は Tincans によってリリースされた音声-言語統合モデルで、英語をサポートしています。
テキスト生成オーディオ
Transformers 英語

G
tincans-ai
90
99
SIMS Llama3.2 3B
このモデルはLlama-3.2-3Bをファインチューニングした音声言語モデルで、交互音声-テキストSLMの拡張性分析に特化し、音声とテキストの生成タスクをサポートします。
テキスト生成オーディオ
Transformers 英語

S
slprl
54
1
SIMS 7B
MIT
Qwen2.5-7Bを拡張した音声言語モデルで、音声-テキスト交互訓練とクロスモーダル生成をサポート
テキスト生成オーディオ
Transformers 英語

S
slprl
51
1
Speechgpt 7B Cm
SpeechGPTは内在的なクロスモーダル対話能力を備えた大規模言語モデルで、マルチモーダルコンテンツの知覚と生成が可能であり、音声とテキストのインタラクションをサポートします。
テキスト生成オーディオ
Transformers

S
fnlp
47
7
Riffusion Musiccaps
これはgoogle/MusicCapsデータセットでファインチューニングされたRiffusionモデルで、テキストプロンプトに基づいて音楽や音楽関連の画像を生成できます。
テキスト生成オーディオ
TensorBoard 英語

R
Hyeon2
47
5
Ichigo Llama3.1 S Instruct V0.4
Apache-2.0
Llama-3アーキテクチャを基にしたマルチモーダル言語モデルで、音声とテキストの入力を理解可能。ノイズ環境下でより高い耐性とマルチターン対話能力を備えています。
テキスト生成オーディオ 英語
I
Menlo
44
20
Ichigo Llama3.1 S Instruct V0.3 Phase 3
Apache-2.0
Ichigo-llama3sは音声とテキスト入力をサポートする大規模言語モデルシリーズで、音声理解能力とユーザーインタラクション体験の向上に焦点を当てています。
テキスト生成オーディオ 英語
I
homebrewltd
43
35
Speechllm 1.5B
Apache-2.0
SpeechLLMは、会話中の話者のターンに関するメタデータ(音声活動、転写テキスト、性別、年齢、アクセント、感情など)を予測するためのマルチモーダル大規模言語モデルです。
テキスト生成オーディオ
Transformers 英語

S
skit-ai
40
7
Seamless M4t V2 Large
SeamlessM4Tは大規模な多言語マルチモーダル機械翻訳モデルで、約100言語の音声とテキスト翻訳をサポートしています。
テキスト生成オーディオ 複数言語対応
S
audo
39
17
Speechgpt 7B Ma
SpeechGPTは、人間の指示に基づいてマルチモーダルコンテンツを認識・生成できる内在的なクロスモーダル対話能力を備えた大規模言語モデルです。
テキスト生成オーディオ
Transformers

S
fnlp
37
5
Ultravox V0 5 Llama 3 3 70b Tempfix
MIT
Ultravoxはマルチモーダル音声大規模言語モデルで、音声とテキストを同時に入力として受け取り、複数の言語とタスクをサポートします。
テキスト生成オーディオ
Transformers 複数言語対応

U
zhuexe
35
0
Music Generation Model
Apache-2.0
これはテキスト生成モデルと音楽生成モデルを統合して作成されたハイブリッドモデルで、テキスト生成と音楽生成の両方のタスクを処理できます。
テキスト生成オーディオ
Transformers

M
nagayama0706
27
1
- 1
- 2