モデル選定

リアルタイム音声インタラクション

# リアルタイム音声インタラクション

Voila Autonomous Preview

Voilaは大規模な音声-言語基盤モデルファミリーで、人間と機械のインタラクション体験を向上させ、リアルタイムで低遅延の音声インタラクションと多言語処理をサポートします。

テキスト生成オーディオ

Transformers 複数言語対応

Voila Audio Alpha

Voilaは大規模な音声-言語基盤モデルファミリーで、人間と機械のインタラクション体験を向上させ、リアルタイムで低遅延の音声インタラクションと多言語処理をサポートします。

テキスト生成オーディオ

Transformers 複数言語対応

Voilaは、人間と機械のインタラクション体験を新たなレベルに引き上げることを目的とした、まったく新しい大規模音声-言語基礎モデルシリーズです。

テキスト生成オーディオ

Transformers 複数言語対応

Seallms Audio 7B

SeaLLMs-Audioは東南アジア向けの大規模音声言語モデルで、インドネシア語、タイ語、ベトナム語、英語、中国語の5つの主要言語をサポートし、音声分析や音声インタラクションなどの機能を備えています。

音声生成テキスト複数言語対応

Voila Tokenizer

Voilaは人間と機械のインタラクション体験を向上させるために設計された大規模な音声-言語基盤モデルシリーズで、様々な音声タスクと言語をサポートします。

テキスト生成オーディオ

Transformers 複数言語対応

Minicpm O 2 6 Int4

MiniCPM-o 2.6のint4量子化バージョンで、GPUのVRAM使用量を大幅に削減し、マルチモーダル処理能力をサポートします。

テキスト生成オーディオ

Transformers その他

Llama 3 Typhoon V1.5 8b Audio Preview

Typhoon-Audio プレビュー版はタイ語と英語に対応したオーディオ-言語モデルで、テキストと音声入力を処理し、テキストを出力します。

音声生成テキスト

UltravoxはLlama3-8B-InstructとWhisper-smallを基に構築されたマルチモーダル音声大規模言語モデルで、音声とテキスト入力を同時に処理できます。

音声生成テキスト

Transformers 英語

Ast Finetuned Speech Commands V2

Speech Commands v2データセットでファインチューニングされた音声スペクトログラムトランスフォーマーモデルで、音声分類タスクに使用され、精度は98.12%です。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase