モデル選定

エンドツーエンド学習

# エンドツーエンド学習

YOLOv10は清華大学が提案したリアルタイムエンドツーエンド物体検出モデルで、効率的かつ正確な特徴を持っています。

Wavlm Bert Fusion S Emotion Russian Resd

WavLMとBERTを基にしたマルチモーダル融合モデルで、音声とテキストの共同タスク処理に適しています。

Control V11p Sd15 Inpaint

ControlNet v1.1 は Stable Diffusion に基づく画像修復の条件制御モデルで、画像修復タスクに使用されます。

画像生成その他

Detr Resnet 50 Finetuned OCR

facebook/detr-resnet-50を微調整したOCRモデルで、物体検出タスクに使用

Deformable Detr Box Supervised

Deformable DETRはTransformerアーキテクチャに基づく物体検出モデルで、LVISデータセットでトレーニングされ、1203クラスの物体検出をサポートします。

Sd Controlnet Scribble

ControlNetは落書き画像条件で拡散モデルを制御するニューラルネットワーク構造で、スケッチの輪郭に沿った画像を精密に生成できます。

画像生成その他

Ast Finetuned Audioset 14 14 0.443

AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマーで、音声をスペクトログラムに変換後、ビジョントランスフォーマーアーキテクチャで処理し、音声分類タスクで優れた性能を発揮します。

Ast Finetuned Audioset 16 16 0.442

AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマーで、視覚トランスフォーマーアーキテクチャを使用してオーディオスペクトログラムを処理し、オーディオ分類タスクで優れた性能を発揮します。

Ast Finetuned Audioset 10 10 0.448 V2

AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマーで、オーディオをスペクトログラムに変換後、ビジョントランスフォーマーで処理し、オーディオ分類タスクで優れた性能を発揮します。

Ast Finetuned Audioset 10 10 0.450

AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマーで、ViTアーキテクチャを使用してオーディオスペクトログラムを処理し、オーディオ分類タスクで優れた性能を発揮します。

Ast Finetuned Audioset 10 10 0.4593

オーディオスペクトログラムトランスフォーマー（AST）はAudioSetでファインチューニングされたモデルで、オーディオをスペクトログラムに変換後、ビジョントランスフォーマーを適用してオーディオ分類を行います。

Yolos Small Balloon

YOLOSは視覚Transformer（ViT）アーキテクチャを使用した物体検出モデルで、DETR損失でトレーニングされ、COCOとMatterportバルーンデータセットでファインチューニングされています。

Wav2vec2 Base Timit Demo Colab

facebook/wav2vec2-baseモデルをベースにTIMITデータセット向けにファインチューニングした音声認識モデル

Wav2vec Speech Project

wav2vecアーキテクチャに基づく音声処理モデル、具体的な用途とトレーニングデータは明記されていません

Wav2vec2 2 Bart Large No Adapter

このモデルはLibriSpeech ASRデータセットで訓練された自動音声認識(ASR)モデルで、英語音声をテキストに変換できます。

Wav2vec2 Large Xls R 3

このモデルはfacebook/wav2vec2-xls-r-300mを汎用音声データセットでファインチューニングしたバージョンで、音声認識タスクに適しています。

Wav2vec2 2 Bert Large No Adapter Frozen Enc

このモデルはlibrispeech_asrデータセットを使って学習された音声認識モデルで、評価セットで2.0133の単語誤り率（WER）を達成しました。

Vilt B32 Finetuned Vqa

ViLTは視覚と言語のトランスフォーマーモデルで、VQAv2データセットでファインチューニングされ、視覚質問応答タスクに使用されます。

テキスト生成画像

Fasnettac Paper

Asteroidフレームワークを基に訓練された音声分離モデルで、ノイズのあるマルチチャンネル音声信号の分離タスクを専門に処理します。

Wav2vec2 Tiny Random Robust

Wav2Vec2アーキテクチャのランダム初期化バージョンに基づく、ロバスト性テスト用に設計された軽量級の自動音声認識（ASR）モデルです。

Transformers 英語

patrickvonplaten

Wav2vec2 Gpt2 Wandb Grid Search

LibriSpeechデータセットに基づいて訓練された自動音声認識(ASR)モデル

Wav2vec2 Xls R 300m Demo Colab

このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voiceデータセットで微調整した音声認識モデルです。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase