# エンドツーエンドトレーニング

Coco Instance Eomt Large 1280
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を示しています。
画像セグメンテーション
C
tue-mps
105
0
Ade20k Panoptic Eomt Giant 1280
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を明らかにしました。
画像セグメンテーション
A
tue-mps
96
0
Ade20k Panoptic Eomt Large 1280
MIT
この論文は、Vision Transformer (ViT) に基づく画像セグメンテーションモデルを提案し、ViTが画像セグメンテーションタスクで持つ可能性を明らかにしました。
画像セグメンテーション PyTorch
A
tue-mps
129
0
Ade20k Panoptic Eomt Large 640
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を示しています。
画像セグメンテーション PyTorch
A
tue-mps
105
0
Ade20k Panoptic Eomt Giant 640
MIT
このモデルは、Vision Transformer (ViT) が画像セグメンテーションタスクで持つ可能性を明らかにし、特定のアーキテクチャ調整によりセグメンテーションタスクに適応させています。
画像セグメンテーション
A
tue-mps
116
0
Coco Panoptic Eomt Large 1280
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして捉える新しい視点を提案し、画像セグメンテーションタスクにおける可能性を探求しています。
画像セグメンテーション
C
tue-mps
119
0
Ade20k Semantic Eomt Large 512
MIT
このモデルは論文『あなたのViTは実際には画像セグメンテーションモデル』に基づいて開発され、画像セグメンテーションタスクのための視覚Transformerモデルです。
画像セグメンテーション
A
tue-mps
108
0
Coco Panoptic Eomt Large 640
MIT
このモデルは、Vision Transformer (ViT) が画像セグメンテーションタスクにおいて持つ可能性を明らかにし、特定のアーキテクチャ調整によりセグメンテーションタスクに適応させています。
画像セグメンテーション
C
tue-mps
217
0
Coco Instance Eomt Large 640
MIT
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を示しています。
画像セグメンテーション
C
tue-mps
99
0
Coco Panoptic Eomt Giant 1280
MIT
このモデルはVision Transformer (ViT)のアーキテクチャを再考することで、画像セグメンテーションタスクにおけるその可能性を示しています。
画像セグメンテーション PyTorch
C
tue-mps
90
0
Detr Finetuned Chess
Apache-2.0
これはDETRアーキテクチャに基づく物体検出モデルで、チェス駒認識タスクに特化してファインチューニングされています。
物体検出 Transformers
D
aesat
29
1
Migician
Apache-2.0
マジシャンは、自由形式のマルチイメージローカライゼーション能力を備えた初のマルチモーダル大規模言語モデルで、複雑なマルチイメージシーンにおいて高精度なローカライゼーションを実現し、70B規模のモデルを超える性能を発揮します。
テキスト生成画像 Transformers 英語
M
Michael4933
83
1
Yolov10x
YOLOv10xはYOLOシリーズの最新バージョンで、リアルタイムのエンドツーエンド物体検出に焦点を当て、より高い検出精度とより速い推論速度を提供します。
物体検出
Y
jameslahm
1,145
41
Yolov10l
YOLOv10 はリアルタイムのエンドツーエンド物体検出モデルで、清華大学のチームによって開発され、YOLOシリーズの最新改良版に基づいています。
物体検出
Y
jameslahm
186
3
Yolov10b
YOLOv10は、清華大学チームによって開発されたリアルタイムエンドツーエンド物体検出モデルで、YOLOシリーズの最新改良版です。
物体検出 Safetensors
Y
jameslahm
97
2
Yolov10s
YOLOv10はリアルタイム物体検出モデルで、非極大抑制(NMS)などの後処理ステップを排除することで、効率的で追加コストのない物体検出を実現しています。
物体検出
Y
kadirnar
15
0
Creek
Apache-2.0
ゼロから構築した大規模言語モデルで、トークナイザーのトレーニング、モデル初期化、事前トレーニング、命令ファインチューニングまでの全プロセスをオープンソースで実装
大規模言語モデル Transformers
C
maheer
21
1
Detr Resnet 50 Sku110k
Apache-2.0
このDETRモデルはSKU110K物体検出データセットでエンドツーエンドトレーニングされ、クエリ数は400に設定されており、商品棚検出などのシーンに適しています。
物体検出 Transformers
D
isalia99
4,066
2
Control V11p Sd15 Inpaint
Openrail
ControlNet v1.1は、拡散モデルに基づくニューラルネットワーク構造で、追加条件による画像生成制御に特化しており、特に画像修復タスクに適しています。
画像生成 その他
C
krnl
35
0
Mamba 3B Slimpj
Apache-2.0
Mambaアーキテクチャに基づく3Bパラメータ規模の言語モデルで、英語テキスト生成タスクをサポートします。
大規模言語モデル Transformers 英語
M
Q-bert
56
3
Detr Resnet 50 Finetuned Cppe5
Apache-2.0
facebook/detr-resnet-50をベースに画像フォルダデータセットでファインチューニングしたDETR物体検出モデル
物体検出 Transformers
D
tree12344
20
0
Timesformer Bert Video Captioning
TimesformerとBERTアーキテクチャに基づくビデオ字幕生成モデルで、ビデオコンテンツに記述的な字幕を生成できます。
ビデオ生成テキスト Transformers
T
AlexZigma
83
3
Encodec 48khz
MIT
EnCodecはMeta AIが開発したリアルタイム高音質ニューラルオーディオコーデックで、複数の帯域幅設定とストリーミング処理をサポートしています。
音声生成 Transformers
E
facebook
23.25k
32
Encodec 24khz
EnCodecはMeta AIが開発した高音質リアルタイムニューラルオーディオコーデックで、エンドツーエンドトレーニング方式を採用し、複数のバンド幅設定をサポートしています。
音声生成 Transformers
E
facebook
534.08k
46
Donut Invoices
Donutアーキテクチャをファインチューニングした請求書情報抽出モデル、OCR不要でドキュメント理解を実現
画像生成テキスト Transformers
D
scharnot
70
2
Deformable Detr Detic
Apache-2.0
変形可能な検出トランスフォーマーアーキテクチャを使用し、1203のカテゴリを含むLVISデータセットでトレーニングされた物体検出モデル
物体検出 Transformers
D
facebook
792
8
Imclasif Genres V001
これはHuggingPicsで生成された画像分類モデルで、特定のジャンル(genres)の画像を分類するために主に使用されます。
画像分類 Transformers
I
sanali209
21
0
Gender Classification
HuggingPicsで生成された画像分類モデルで、画像内の性別(男性または女性)を識別します。
画像分類 Transformers
G
Enverrr
13
0
Re2g Qry Encoder Fever
Apache-2.0
Re2Gは、知識集約型タスクのためのニューラル初期検索と再ランキングを組み合わせた生成モデルです。この質問エンコーダーは、検索のために質問をベクトルにエンコードするRe2Gシステムの構成要素です。
テキスト埋め込み Transformers
R
ibm-research
17
0
Re2g Qry Encoder Nq
Apache-2.0
Re2Gは知識集約型タスクのためのニューラル検索、再ランキング、生成を統合したエンドツーエンドシステムです。このモデルはそのNQ(Natural Questions)質問エンコーダーコンポーネントです。
質問応答システム Transformers
R
ibm-research
14
0
Cifar 10 Vgg Pretrained
PyTorchで実装された画像分類モデルで、さまざまな一般的な物体カテゴリを認識可能
画像分類 Transformers
C
amehta633
22
0
Kss Tts Train Jets Raw Phn Null G2pk Train.total Count.ave
これはESPnet2フレームワークで訓練された韓国語テキスト音声変換(TTS)モデルで、KSSデータセットを使用し、JETSアーキテクチャを採用しています。
音声合成 韓国語
K
imdanboy
60
0
Wav2vec2 Base Timit Demo Colab0
Apache-2.0
このモデルはfacebook/wav2vec2-baseをファインチューニングした音声認識モデルで、TIMITデータセットで0.5635の単語誤り率を達成しました。
音声認識 Transformers
W
sherry7144
26
0
Wav2vec2 Base Timit Demo Colab
Apache-2.0
facebook/wav2vec2-baseモデルをTIMITデータセットでファインチューニングした音声認識モデル、デモンストレーション用
音声認識 Transformers
W
moaiz237
24
0
Gunnarthor Talromur A Fastspeech2
ESPnetフレームワークとtalromurデータセットでトレーニングされたFastSpeech2テキスト音声合成モデルで、アイスランド語の音声合成をサポートします。
音声合成 英語
G
espnet
50
0
Wav2vec2 2 Rnd
LibriSpeech ASR データセットでトレーニングされた自動音声認識モデルで、英語音声をテキストに変換します。
音声認識 Transformers
W
sanchit-gandhi
16
0
Kan Bayashi Ljspeech Fastspeech2
これはESPnetフレームワークでトレーニングされたFastSpeech2テキスト音声合成(TTS)モデルで、LJSpeechデータセットを使用してトレーニングされました。
音声合成 英語
K
espnet
22
0
Wav2vec2 Large Xlsr Arabic Common Voice 10 Epochs
wav2vec2アーキテクチャに基づくアラビア語音声認識モデルで、Common Voiceデータセットで10エポックのトレーニングを行った。
音声認識 Transformers
W
salti
30
0
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase