# リアルタイム音声インタラクション

Voila Autonomous Preview
MIT
Voilaは大規模な音声-言語基盤モデルファミリーで、人間と機械のインタラクション体験を向上させ、リアルタイムで低遅延の音声インタラクションと多言語処理をサポートします。
テキスト生成オーディオ Transformers 複数言語対応
V
maitrix-org
332
8
Voila Audio Alpha
MIT
Voilaは大規模な音声-言語基盤モデルファミリーで、人間と機械のインタラクション体験を向上させ、リアルタイムで低遅延の音声インタラクションと多言語処理をサポートします。
テキスト生成オーディオ Transformers 複数言語対応
V
maitrix-org
175
3
Voila Chat
MIT
Voilaは、人間と機械のインタラクション体験を新たなレベルに引き上げることを目的とした、まったく新しい大規模音声-言語基礎モデルシリーズです。
テキスト生成オーディオ Transformers 複数言語対応
V
maitrix-org
2,423
32
Seallms Audio 7B
その他
SeaLLMs-Audioは東南アジア向けの大規模音声言語モデルで、インドネシア語、タイ語、ベトナム語、英語、中国語の5つの主要言語をサポートし、音声分析や音声インタラクションなどの機能を備えています。
音声生成テキスト 複数言語対応
S
SeaLLMs
539
10
Voila Tokenizer
MIT
Voilaは人間と機械のインタラクション体験を向上させるために設計された大規模な音声-言語基盤モデルシリーズで、様々な音声タスクと言語をサポートします。
テキスト生成オーディオ Transformers 複数言語対応
V
maitrix-org
4,912
3
Minicpm O 2 6 Int4
MiniCPM-o 2.6のint4量子化バージョンで、GPUのVRAM使用量を大幅に削減し、マルチモーダル処理能力をサポートします。
テキスト生成オーディオ Transformers その他
M
openbmb
4,249
42
Llama 3 Typhoon V1.5 8b Audio Preview
Typhoon-Audio プレビュー版はタイ語と英語に対応したオーディオ-言語モデルで、テキストと音声入力を処理し、テキストを出力します。
音声生成テキスト Transformers
L
scb10x
218
12
Ultravox V0 2
MIT
UltravoxはLlama3-8B-InstructとWhisper-smallを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。
音声生成テキスト Transformers 英語
U
fixie-ai
792
51
Ast Finetuned Speech Commands V2
Bsd-3-clause
Speech Commands v2データセットでファインチューニングされた音声スペクトログラムトランスフォーマーモデルで、音声分類タスクに使用され、精度は98.12%です。
音声分類 Transformers
A
MIT
10.94k
15
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase