# エンドツーエンド学習

Yolov10n
YOLOv10は清華大学が提案したリアルタイムエンドツーエンド物体検出モデルで、効率的かつ正確な特徴を持っています。
物体検出
Y
jameslahm
3,326
17
Wavlm Bert Fusion S Emotion Russian Resd
WavLMとBERTを基にしたマルチモーダル融合モデルで、音声とテキストの共同タスク処理に適しています。
音声認識 Transformers
W
Aniemore
298
3
Control V11p Sd15 Inpaint
Openrail
ControlNet v1.1 は Stable Diffusion に基づく画像修復の条件制御モデルで、画像修復タスクに使用されます。
画像生成 その他
C
lllyasviel
38.44k
118
Detr Resnet 50 Finetuned OCR
Apache-2.0
facebook/detr-resnet-50を微調整したOCRモデルで、物体検出タスクに使用
文字認識 Transformers
D
ismadoukkali
15
1
Deformable Detr Box Supervised
Apache-2.0
Deformable DETRはTransformerアーキテクチャに基づく物体検出モデルで、LVISデータセットでトレーニングされ、1203クラスの物体検出をサポートします。
物体検出 Transformers
D
facebook
193
0
Sd Controlnet Scribble
Openrail
ControlNetは落書き画像条件で拡散モデルを制御するニューラルネットワーク構造で、スケッチの輪郭に沿った画像を精密に生成できます。
画像生成 その他
S
lllyasviel
5,395
54
Ast Finetuned Audioset 14 14 0.443
Bsd-3-clause
AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマーで、音声をスペクトログラムに変換後、ビジョントランスフォーマーアーキテクチャで処理し、音声分類タスクで優れた性能を発揮します。
音声分類 Transformers
A
MIT
194.20k
5
Ast Finetuned Audioset 16 16 0.442
Bsd-3-clause
AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマーで、視覚トランスフォーマーアーキテクチャを使用してオーディオスペクトログラムを処理し、オーディオ分類タスクで優れた性能を発揮します。
音声分類 Transformers
A
MIT
35
1
Ast Finetuned Audioset 10 10 0.448 V2
Bsd-3-clause
AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマーで、オーディオをスペクトログラムに変換後、ビジョントランスフォーマーで処理し、オーディオ分類タスクで優れた性能を発揮します。
音声分類 Transformers
A
MIT
2,072
0
Ast Finetuned Audioset 10 10 0.450
Bsd-3-clause
AudioSetデータセットでファインチューニングされたオーディオスペクトログラムトランスフォーマーで、ViTアーキテクチャを使用してオーディオスペクトログラムを処理し、オーディオ分類タスクで優れた性能を発揮します。
音声分類 Transformers
A
MIT
109
4
Ast Finetuned Audioset 10 10 0.4593
Bsd-3-clause
オーディオスペクトログラムトランスフォーマー(AST)はAudioSetでファインチューニングされたモデルで、オーディオをスペクトログラムに変換後、ビジョントランスフォーマーを適用してオーディオ分類を行います。
音声分類 Transformers
A
MIT
308.88k
311
Yolos Small Balloon
YOLOSは視覚Transformer(ViT)アーキテクチャを使用した物体検出モデルで、DETR損失でトレーニングされ、COCOとMatterportバルーンデータセットでファインチューニングされています。
物体検出 Transformers
Y
zoheb
101
1
Wav2vec2 Base Timit Demo Colab
Apache-2.0
facebook/wav2vec2-baseモデルをベースにTIMITデータセット向けにファインチューニングした音声認識モデル
音声認識 Transformers
W
roshantushar
24
0
Wav2vec Speech Project
wav2vecアーキテクチャに基づく音声処理モデル、具体的な用途とトレーニングデータは明記されていません
音声認識 Transformers
W
maryam359
16
0
Wav2vec2 2 Bart Large No Adapter
このモデルはLibriSpeech ASRデータセットで訓練された自動音声認識(ASR)モデルで、英語音声をテキストに変換できます。
音声認識 Transformers
W
sanchit-gandhi
22
0
Wav2vec2 Large Xls R 3
Apache-2.0
このモデルはfacebook/wav2vec2-xls-r-300mを汎用音声データセットでファインチューニングしたバージョンで、音声認識タスクに適しています。
音声認識 Transformers
W
chaitanya97
20
0
Wav2vec2 2 Bert Large No Adapter Frozen Enc
このモデルはlibrispeech_asrデータセットを使って学習された音声認識モデルで、評価セットで2.0133の単語誤り率(WER)を達成しました。
音声認識 Transformers
W
speech-seq2seq
25
2
Vilt B32 Finetuned Vqa
Apache-2.0
ViLTは視覚と言語のトランスフォーマーモデルで、VQAv2データセットでファインチューニングされ、視覚質問応答タスクに使用されます。
テキスト生成画像 Transformers
V
dandelin
71.41k
408
Fasnettac Paper
Asteroidフレームワークを基に訓練された音声分離モデルで、ノイズのあるマルチチャンネル音声信号の分離タスクを専門に処理します。
音声分離
F
popcornell
21
3
Wav2vec2 Tiny Random Robust
Apache-2.0
Wav2Vec2アーキテクチャのランダム初期化バージョンに基づく、ロバスト性テスト用に設計された軽量級の自動音声認識(ASR)モデルです。
音声認識 Transformers 英語
W
patrickvonplaten
406
0
Wav2vec2 Gpt2 Wandb Grid Search
LibriSpeechデータセットに基づいて訓練された自動音声認識(ASR)モデル
音声認識 Transformers
W
sanchit-gandhi
13
0
Wav2vec2 Xls R 300m Demo Colab
Apache-2.0
このモデルは、facebook/wav2vec2-xls-r-300mをcommon_voiceデータセットで微調整した音声認識モデルです。
音声認識 Transformers
W
Mahalakshmi
16
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase