モデル選定

低遅延処理

# 低遅延処理

TEN VADは、リアルタイム音声処理シナリオに適した、低遅延で軽量、高性能なストリーミング音声活動検出システムです。

音声認識その他

Erax WoW Turbo V1.1

ベトナム語に最適化されたWhisper Large-v3 Turbo音声認識モデルで、多言語をサポートし、超高速応答と高精度を実現

Transformers その他

Erax WoW Turbo V1.0

ベトナム語に最適化されたWhisper Large-v3 Turbo音声認識モデルで、多言語リアルタイム書き起こしをサポート

Transformers その他

Omniparser V2.0

OmniParserは汎用スクリーン解析ツールで、UIスクリーンショットを解釈/構造化フォーマットに変換し、LLMベースのUIエージェントの性能を向上させます。

画像生成テキスト

Llava Mini Llama 3.1 8b

LLaVA-Miniは効率的なマルチモーダル大規模モデルで、1つの視覚トークンだけで画像を表現することで、画像や動画理解の効率を大幅に向上させています。

画像生成テキスト

VITA-1.5はマルチモーダルインタラクションモデルで、GPT-4oレベルのリアルタイム視覚と音声インタラクション能力を実現することを目的としています。

Speaker Diarization V1

これはパワーセットマルチクラス交差エントロピー損失に基づくスピーカーセグメンテーションモデルで、10秒のモノラル音声を処理し、スピーカーセグメンテーション結果を出力できます。

話者の処理

これはRVC（Retrieval-based Voice Conversion）技術に基づく音声変換モデルで、入力音声をピカチュウ風の音声に変換できます。

これはRVC（Retrieval-based Voice Conversion）モデルで、オーディオからオーディオへの変換タスクに使用されます。

これはRVC（Retrieval-based Voice Conversion）モデルで、オーディオからオーディオへの変換タスクに使用されます。

Todoroki2333333

これはRVC（Retrieval-based Voice Conversion）モデルで、音声から音声への変換タスクに使用されます。

これはRVC (Retrieval-based Voice Conversion) 技術に基づく音声変換モデルで、入力音声をスポンジ・ボブの声に変換できます。

これはRVC（Retrieval-based Voice Conversion）技術に基づいた音声変換モデルで、ソース音声をターゲット音声スタイルに変換できます。

これはRVC（Retrieval-based Voice Conversion）モデルで、オーディオからオーディオへの変換タスクに使用されます。

これはRVC（Retrieval-Based Voice Conversion）技術に基づく音声変換モデルで、入力オーディオをカニエ・ウェストの声スタイルに変換できます。

これはRVC（Retrieval-Based Voice Conversion）技術に基づくオーディオ変換モデルで、入力オーディオをジャスティン・ビーバー（Justin Bieber）スタイルの音声に変換するために特別に設計されています。

これはRVC（Retrieval-Based Voice Conversion）技術に基づく音声変換モデルで、入力音声を特定のキャラクターの声に変換できます。

Chester Bennington RVC 1000 Epochs

これはRVC（リアルタイムボイスチェンジ）技術に基づくモデルで、入力音声をChester Benningtonスタイルの音声に変換するために特別に設計されています。

これはRVC（Retrieval-Based Voice Conversion）音声変換モデルで、オーディオからオーディオへの変換タスクに使用されます。

リアルタイム音声変換モデル、航海などのシーンでのリアルタイム音声変換をサポート

これはRVC（Retrieval-Based Voice Conversion）モデルで、音声から音声への変換タスクに使用されます。

Wsj0 2mix Skim Small Causal

これはESPnetフレームワークで訓練された音声強調モデルで、wsj0_2mixデータセットの混合音声信号分離タスクに特化しています。

オーディオ拡張英語

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V5

wav2vec2-large-xlsr-53をベースにした自動音声認識モデルで、GARY109/AI_LIGHT_DANCEデータセットでファインチューニングされています

Waynehills STT Doogie Server

Doogie/Waynehills-STT-doogie-serverをファインチューニングした音声認識モデル

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase