Mambavision L3 512 21K
その他
MambaVisionは、マンバ(Mamba)とTransformerの利点を組み合わせた初のコンピュータビジョンハイブリッドモデルです。再設計されたマンバ式により視覚特徴モデリング能力を強化し、マンバアーキテクチャの最後の数層にセルフアテンションモジュールを追加することで、長距離空間依存関係のモデリング能力を向上させています。
画像分類
Transformers

M
nvidia
7,548
49
Mambavision L2 512 21K
その他
マンバ(Mamba)とTransformerの利点を組み合わせた初のハイブリッドコンピュータビジョンモデルで、マンバの式を再構築して視覚的特徴モデリング能力を強化
画像分類
Transformers

M
nvidia
2,678
3
Efficientnet B7
Apache-2.0
EfficientNetは、深さ、幅、解像度を統一してスケーリングすることで高性能な画像分類を実現する効率的な畳み込みニューラルネットワークです
画像分類
Transformers

E
google
6,522
17
Swinv2 Large Patch4 Window12to24 192to384 22kto1k Ft
Apache-2.0
Swin Transformer v2はImageNet-21kで事前学習され、384x384解像度でImageNet-1kに対してファインチューニングされたビジョントランスフォーマーモデルで、階層的特徴マップと局所ウィンドウ自己注意機構を備えています。
画像分類
Transformers

S
microsoft
3,048
4
Swinv2 Large Patch4 Window12to16 192to256 22kto1k Ft
Apache-2.0
Swin Transformer v2は、階層的特徴マップとローカルウィンドウ自己注意メカニズムにより、効率的な画像分類と密な認識タスクを実現するビジョントランスフォーマーモデルです。
画像分類
Transformers

S
microsoft
812
4
Swinv2 Base Patch4 Window12to16 192to256 22kto1k Ft
Apache-2.0
Swin Transformer v2は、階層的特徴マップと局所ウィンドウ自己注意機構により効率的な画像分類を実現する視覚Transformerモデルです。
画像分類
Transformers

S
microsoft
459
1
Swinv2 Large Patch4 Window12 192 22k
Apache-2.0
Swin Transformer v2は、階層的特徴マップと局所ウィンドウ自己注意メカニズムにより、効率的な画像分類と密な認識タスクを実現する視覚Transformerモデルです。
画像分類
Transformers

S
microsoft
3,816
10
Swinv2 Base Patch4 Window16 256
Apache-2.0
Swin Transformer v2は、階層的特徴マップと局所ウィンドウ自己注意メカニズムにより、効率的な画像分類と密な認識タスクを実現する視覚Transformerモデルです。
画像分類
Transformers

S
microsoft
1,853
3
Swinv2 Small Patch4 Window8 256
Apache-2.0
Swin Transformer v2は、階層的特徴マップとローカルウィンドウ自己注意メカニズムを通じて効率的な画像処理を実現する視覚Transformerモデルです。
画像分類
Transformers

S
microsoft
1,836
0
Swinv2 Tiny Patch4 Window8 256
Apache-2.0
Swin Transformer v2はImageNet-1kで事前学習された視覚Transformerモデルで、階層的特徴マップと局所ウィンドウ自己注意機構を採用し、線形計算複雑性を持ちます。
画像分類
Transformers

S
microsoft
25.04k
10
Cvt W24 384 22k
Apache-2.0
CvT-w24はImageNet-22kで事前学習され、384x384解像度でファインチューニングされた視覚トランスフォーマーモデルで、畳み込みを導入して従来の視覚トランスフォーマーを改良しています。
画像分類
Transformers

C
microsoft
66
0
Cvt 21 384
Apache-2.0
CvT-21は畳み込みビジョントランスフォーマーアーキテクチャに基づく画像分類モデルで、ImageNet-1kデータセットで384x384解像度で事前学習されています。
画像分類
Transformers

C
microsoft
29
1
Cvt 21 384 22k
Apache-2.0
CvT-21は畳み込みとTransformerアーキテクチャを組み合わせた視覚モデルで、ImageNet-22kで事前学習され、ImageNet-1kでファインチューニングされています
画像分類
Transformers

C
microsoft
134
3
Cvt 13 384 22k
Apache-2.0
CvT-13は畳み込みとTransformerを組み合わせた視覚モデルで、ImageNet-22kで事前学習され、ImageNet-1kで微調整され、画像分類タスクに適しています。
画像分類
Transformers

C
microsoft
508
0
Cvt 13 384
Apache-2.0
CvT-13はImageNet-1kデータセットで事前学習されたビジョントランスフォーマーモデルで、畳み込み操作を導入することで従来のビジョントランスフォーマーの性能を改善しました。
画像分類
Transformers

C
microsoft
27
0
Swin Base Patch4 Window12 384 In22k
Apache-2.0
Swin Transformerはシフトウィンドウに基づく階層型視覚Transformerモデルで、画像分類タスク向けに設計されています。
画像分類
Transformers

S
microsoft
2,431
1
Vit Large Patch16 384
Apache-2.0
ビジョントランスフォーマー(ViT)は、トランスフォーマーアーキテクチャに基づく画像分類モデルで、最初にImageNet-21kで事前学習され、その後ImageNetでファインチューニングされます。
画像分類
V
google
161.29k
12
Vit Base Patch16 384
Apache-2.0
Vision Transformer(ViT)はTransformerアーキテクチャに基づく画像分類モデルで、最初にImageNet-21kで事前トレーニングされ、その後ImageNetでファインチューニングされます。
画像分類
V
google
30.30k
38
Beit Large Patch16 512
Apache-2.0
BEiTはビジュアルTransformerに基づく画像分類モデルで、自己教師付き方式でImageNet-21k上で事前学習され、ImageNet-1k上で微調整されます。
画像分類
B
microsoft
683
11
Swin Large Patch4 Window12 384
Apache-2.0
Swin Transformerは、シフトウィンドウに基づく階層型ビジュアルTransformerモデルで、画像分類タスク用に設計されています。
画像分類
Transformers

S
microsoft
22.77k
1
Swin Large Patch4 Window12 384 In22k
Apache-2.0
Swin Transformerは階層型ウィンドウに基づくビジュアルTransformerモデルで、ImageNet - 21kデータセットで事前学習され、画像分類タスクに適しています。
画像分類
Transformers

S
microsoft
1,063
7
Vit Base Patch32 384
Apache-2.0
Vision Transformer(ViT)はTransformerアーキテクチャに基づく画像分類モデルで、ImageNet-21kとImageNetデータセットで事前学習とファインチューニングを行い、効率的な画像認識能力を実現しています。
画像分類
V
google
24.92k
20
Vit Large Patch32 384
Apache-2.0
このビジュアルTransformer(ViT)モデルは、まずImageNet - 21kデータセットで事前学習され、その後ImageNetデータセットで微調整され、画像分類タスクに適しています。
画像分類
V
google
118.37k
16
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98